論文の概要: Improved Frequency Estimation Algorithms with and without Predictions
- arxiv url: http://arxiv.org/abs/2312.07535v1
- Date: Tue, 12 Dec 2023 18:59:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 14:39:31.560365
- Title: Improved Frequency Estimation Algorithms with and without Predictions
- Title(参考訳): 予測を伴わない周波数推定アルゴリズムの改良
- Authors: Anders Aamand, Justin Y. Chen, Huy L\^e Nguyen, Sandeep Silwal, Ali
Vakilian
- Abstract要約: データストリームに現れる要素の頻度を推定することは、大規模データ分析において重要なタスクである。
理論的には,Hsu等の学習に基づくアルゴリズムを,予測を使わずに上回る新しいアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 22.382900492405938
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Estimating frequencies of elements appearing in a data stream is a key task
in large-scale data analysis. Popular sketching approaches to this problem
(e.g., CountMin and CountSketch) come with worst-case guarantees that
probabilistically bound the error of the estimated frequencies for any possible
input. The work of Hsu et al. (2019) introduced the idea of using machine
learning to tailor sketching algorithms to the specific data distribution they
are being run on. In particular, their learning-augmented frequency estimation
algorithm uses a learned heavy-hitter oracle which predicts which elements will
appear many times in the stream. We give a novel algorithm, which in some
parameter regimes, already theoretically outperforms the learning based
algorithm of Hsu et al. without the use of any predictions. Augmenting our
algorithm with heavy-hitter predictions further reduces the error and improves
upon the state of the art. Empirically, our algorithms achieve superior
performance in all experiments compared to prior approaches.
- Abstract(参考訳): データストリームに現れる要素の頻度を推定することは、大規模データ分析において重要なタスクである。
この問題に対する一般的なスケッチ手法(例えば、CountMinとCountSketch)は、最悪のケースで、推定周波数の誤差を任意の入力に対して確率的に制限することを保証する。
Hsu et al. (2019) の作業は、機械学習を使用して、実行中の特定のデータ分布に合わせてスケッチアルゴリズムをカスタマイズするアイデアを導入した。
特に、彼らの学習による周波数推定アルゴリズムは、学習されたヘビーヒットのオラクルを使用して、ストリームに何度も出現する要素を予測する。
いくつかのパラメータレジームでは、理論上はhsuなどの学習ベースのアルゴリズムを上回っており、予測を使わずに新しいアルゴリズムを与える。
重み付け予測によるアルゴリズムの強化は誤りをさらに減らし、技術状況を改善する。
実験により,本アルゴリズムは従来の手法と比較して,全ての実験において優れた性能を発揮する。
関連論文リスト
- Learning-Based Heavy Hitters and Flow Frequency Estimation in Streams [9.22255012731159]
そこで本研究では,まず,大ヒット数,トップk,フロー周波数推定を識別する,LSSと呼ばれる競合カウンタベースのアルゴリズムを提案する。
以上の結果から, LSSは重打点, トップk, 流速推定において, スペースセービングの精度と効率を高めることができることが示された。
論文 参考訳(メタデータ) (2024-06-24T02:31:00Z) - Learning the Positions in CountSketch [49.57951567374372]
本稿では,まずランダムなスケッチ行列に乗じてデータを圧縮し,最適化問題を高速に解くスケッチアルゴリズムについて検討する。
本研究では,ゼロでないエントリの位置を最適化する学習ベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-11T07:28:35Z) - Algorithms with Prediction Portfolios [23.703372221079306]
我々は、マッチング、ロードバランシング、非クレアボイラントスケジューリングなど、多くの基本的な問題に対する複数の予測器の使用について検討する。
これらの問題のそれぞれに対して、複数の予測器を利用する新しいアルゴリズムを導入し、その結果のパフォーマンスに限界を証明します。
論文 参考訳(メタデータ) (2022-10-22T12:58:07Z) - Generalization Bounds for Data-Driven Numerical Linear Algebra [24.961270871124217]
データ駆動アルゴリズムは、トレーニングされた入力サンプルから学習することで、未知のアプリケーション固有の分布からの入力に内部構造やパラメータを適用することができる。
いくつかの最近の研究は、数値線形代数における問題にこのアプローチを適用し、性能において顕著な経験的利得を得た。
本研究では、Gupta と Roughgarden が提案するデータ駆動アルゴリズム選択のためのPAC学習フレームワークにおいて、これらのアルゴリズムの一般化境界を証明する。
論文 参考訳(メタデータ) (2022-06-16T02:23:45Z) - Triangle and Four Cycle Counting with Predictions in Graph Streams [59.05440236993604]
三角形の数と4サイクルを推定するための,データ駆動型ワンパスストリーミングアルゴリズムを提案する。
従来の"古典的"アルゴリズムを改善するために、ストリーム要素の特定の特性を予測できるトレーニングされたオラクルを使用します。
提案手法は,従来のマルチパスおよびランダム順序ストリーミングアルゴリズムを特殊なケースとみなすことができるため,従来の"古典的"ストリーミングアルゴリズムの取り組みを拡大する。
論文 参考訳(メタデータ) (2022-03-17T19:26:00Z) - Non-Clairvoyant Scheduling with Predictions Revisited [77.86290991564829]
非論理的スケジューリングでは、優先度不明な処理条件でジョブをスケジューリングするためのオンライン戦略を見つけることが課題である。
我々はこのよく研究された問題を、アルゴリズム設計に(信頼できない)予測を統合する、最近人気の高い学習強化された設定で再検討する。
これらの予測には所望の特性があり, 高い性能保証を有するアルゴリズムと同様に, 自然な誤差測定が可能であることを示す。
論文 参考訳(メタデータ) (2022-02-21T13:18:11Z) - Robustification of Online Graph Exploration Methods [59.50307752165016]
我々は、古典的で有名なオンライングラフ探索問題の学習強化版について研究する。
本稿では,予測をよく知られたNearest Neighbor(NN)アルゴリズムに自然に統合するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-12-10T10:02:31Z) - Machine Learning for Online Algorithm Selection under Censored Feedback [71.6879432974126]
オンラインアルゴリズム選択(OAS)では、アルゴリズム問題クラスのインスタンスがエージェントに次々に提示され、エージェントは、固定された候補アルゴリズムセットから、おそらく最高のアルゴリズムを迅速に選択する必要がある。
SAT(Satisfiability)のような決定問題に対して、品質は一般的にアルゴリズムのランタイムを指す。
本研究では,OASのマルチアームバンディットアルゴリズムを再検討し,この問題に対処する能力について議論する。
ランタイム指向の損失に適応し、時間的地平線に依存しない空間的・時間的複雑さを維持しながら、部分的に検閲されたデータを可能にする。
論文 参考訳(メタデータ) (2021-09-13T18:10:52Z) - Double Coverage with Machine-Learned Advice [100.23487145400833]
オンラインの基本的な$k$-serverの問題を学習強化環境で研究する。
我々のアルゴリズムは任意の k に対してほぼ最適の一貫性-破壊性トレードオフを達成することを示す。
論文 参考訳(メタデータ) (2021-03-02T11:04:33Z) - Frequency Estimation in Data Streams: Learning the Optimal Hashing
Scheme [3.7565501074323224]
本稿では,最適化と機械学習に基づくデータストリームの周波数推定問題に対する新しいアプローチを提案する。
提案手法は、観測されたストリームプレフィックスをほぼ最適にハッシュ要素に利用し、ターゲット周波数分布を圧縮する。
提案手法は, 推定誤差の平均(要素単位)と推定誤差の平均(要素単位)で1~2桁, 予測誤差で45~90%の精度で既存手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-07-17T22:15:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。