論文の概要: A Bayesian nonparametric approach to count-min sketch under power-law
data streams
- arxiv url: http://arxiv.org/abs/2102.03743v2
- Date: Thu, 11 Feb 2021 07:27:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-12 10:12:12.639344
- Title: A Bayesian nonparametric approach to count-min sketch under power-law
data streams
- Title(参考訳): パワーローデータストリーム下のカウントミンスケッチに対するベイズ非パラメトリックアプローチ
- Authors: Emanuele Dolera, Stefano Favaro, Stefano Peluchetti
- Abstract要約: カウントミンスケッチ(カウントミンスケッチ、英: count-min sketch、CMS)は、大規模なデータストリームでトークンの周波数を推定するランダム化されたデータ構造である。
我々は,定格データストリームに基づく学習強化型CMSを開発した。
提案手法は低周波トークンの推定において顕著な性能を発揮する。
- 参考スコア(独自算出の注目度): 2.9005223064604078
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The count-min sketch (CMS) is a randomized data structure that provides
estimates of tokens' frequencies in a large data stream using a compressed
representation of the data by random hashing. In this paper, we rely on a
recent Bayesian nonparametric (BNP) view on the CMS to develop a novel
learning-augmented CMS under power-law data streams. We assume that tokens in
the stream are drawn from an unknown discrete distribution, which is endowed
with a normalized inverse Gaussian process (NIGP) prior. Then, using
distributional properties of the NIGP, we compute the posterior distribution of
a token's frequency in the stream, given the hashed data, and in turn
corresponding BNP estimates. Applications to synthetic and real data show that
our approach achieves a remarkable performance in the estimation of
low-frequency tokens. This is known to be a desirable feature in the context of
natural language processing, where it is indeed common in the context of the
power-law behaviour of the data.
- Abstract(参考訳): count-min sketch (cms) は、ランダムハッシュによるデータの圧縮表現を用いて、大きなデータストリーム内のトークンの頻度を推定するランダムデータ構造である。
本論文では、最近のベイズ非パラメトリック(BNP)ビューをCMSに頼って、パワーローデータストリームの下で新しい学習強化CMSを開発する。
ストリーム内のトークンは未知の離散分布から引き出されると仮定し、それ以前に正規化された逆ガウス過程(NIGP)が与えられる。
そして、NIGPの分布特性を用いて、ハッシュデータに基づき、ストリーム内のトークンの周波数の後方分布を計算し、対応するBNP推定を行う。
合成および実データへの応用は,低周波トークンの推定において顕著な性能を達成していることを示す。
これは自然言語処理の文脈において望ましい特徴として知られており、データの力則の振る舞いの文脈では確かに一般的である。
関連論文リスト
- Stream-level flow matching from a Bayesian decision theoretic perspective [4.935875591615496]
フローマッチング(英: Flow matching, FM)は、連続正規化フロー(CNF)を適合させる訓練アルゴリズムの一群である。
我々は,パラメータ推定におけるベイズ決定論的な視点からCFMトレーニングを観ることによって,CFMアルゴリズムの一般化への扉を開くことを示す。
論文 参考訳(メタデータ) (2024-09-30T15:47:22Z) - A quasi-Bayesian sequential approach to deconvolution density estimation [7.10052009802944]
密度デコンボリューションは、データからランダム信号の未知の密度関数$f$を推定する。
我々は、ノイズの多いデータが徐々に到着するストリーミングやオンライン環境での密度デコンボリューションの問題を考察する。
準ベイズ的シーケンシャルアプローチを頼りにすると、容易に評価できる$f$の推定値が得られる。
論文 参考訳(メタデータ) (2024-08-26T16:40:04Z) - Boundary-aware Decoupled Flow Networks for Realistic Extreme Rescaling [49.215957313126324]
Invertible rescaling Network (IRN) やgenerative adversarial Network (GAN) などを含む最近の生成手法は、画像再スケーリングにおいて例外的な性能を示した。
しかし、IRNベースの手法は過度に滑らかな結果を生成する傾向にあり、一方、GANベースの手法は偽の細部を容易に生成する。
本稿では,現実的かつ視覚的に満足な結果を生成するために,境界対応デカップリングフローネットワーク(BDFlow)を提案する。
論文 参考訳(メタデータ) (2024-05-05T14:05:33Z) - Deep Horseshoe Gaussian Processes [1.0742675209112622]
直交指数核を持つディープ・ガウス過程に基づく新しい単純前処理であるディープ・ホースシュー・ガウス過程(Deep Horseshoe Gaussian process)を紹介する。
本研究は、2次損失から対数係数まで、未知の真の回帰曲線を最適に復元することを示す。
論文 参考訳(メタデータ) (2024-03-04T05:30:43Z) - On the Dynamics of Inference and Learning [0.0]
本稿では,このベイズ更新過程を連続力学系として扱う。
クラムラーラオ境界が飽和すると、学習率は単純な1/T$パワーローによって制御されることを示す。
論文 参考訳(メタデータ) (2022-04-19T18:04:36Z) - Learning Summary Statistics for Bayesian Inference with Autoencoders [58.720142291102135]
我々は,ディープニューラルネットワークに基づくオートエンコーダの内部次元を要約統計として利用する。
パラメータ関連情報を全て符号化するエンコーダのインセンティブを作成するため,トレーニングデータの生成に使用した暗黙的情報にデコーダがアクセスできるようにする。
論文 参考訳(メタデータ) (2022-01-28T12:00:31Z) - Transformers Can Do Bayesian Inference [56.99390658880008]
我々はPFN(Presideed Data Fitted Networks)を提案する。
PFNは、大規模機械学習技術におけるインコンテキスト学習を活用して、大規模な後部集合を近似する。
我々は、PFNがガウス過程をほぼ完璧に模倣し、難解問題に対する効率的なベイズ推定を可能にすることを示した。
論文 参考訳(メタデータ) (2021-12-20T13:07:39Z) - Learning-augmented count-min sketches via Bayesian nonparametrics [2.9005223064604078]
カウントミンスケッチ(カウントミンスケッチ、英: count-min sketch、CMS)は、データストリーム内のトークンの周波数を推定する時間とメモリ効率のよいランダム化データ構造である。
我々はCMS-DPの代替として、より柔軟に導出する。
CMS-PYP(CMS-PYP)は、PYPプリエントを介してストリームのBNPモデリングに依存する。
論文 参考訳(メタデータ) (2021-02-08T16:02:30Z) - Plug-And-Play Learned Gaussian-mixture Approximate Message Passing [71.74028918819046]
そこで本研究では,従来のi.i.d.ソースに適した圧縮圧縮センシング(CS)リカバリアルゴリズムを提案する。
我々のアルゴリズムは、Borgerdingの学習AMP(LAMP)に基づいて構築されるが、アルゴリズムに普遍的な復調関数を採用することにより、それを大幅に改善する。
数値評価により,L-GM-AMPアルゴリズムは事前の知識を必要とせず,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-11-18T16:40:45Z) - Representation Learning for Sequence Data with Deep Autoencoding
Predictive Components [96.42805872177067]
本稿では,シーケンスデータの有用な表現が潜在空間における単純な構造を示すべきという直感に基づく,シーケンスデータの自己教師型表現学習法を提案する。
我々は,過去と将来のウィンドウ間の相互情報である潜在特徴系列の予測情報を最大化することにより,この潜時構造を奨励する。
提案手法は,ノイズの多い動的システムの潜時空間を復元し,タスク予測のための予測特徴を抽出し,エンコーダを大量の未ラベルデータで事前訓練する場合に音声認識を改善する。
論文 参考訳(メタデータ) (2020-10-07T03:34:01Z) - Bootstrapping Neural Processes [114.97111530885093]
ニューラル・プロセス(NP)は、ニューラルネットワークを用いた幅広いプロセスのクラスを暗黙的に定義する。
NPは、プロセスの不確実性は単一の潜在変数によってモデル化されるという仮定に依存している。
本稿では,ブートストラップを用いたNPファミリーの新規拡張であるBoostrapping Neural Process (BNP)を提案する。
論文 参考訳(メタデータ) (2020-08-07T02:23:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。