論文の概要: A Bayesian nonparametric approach to count-min sketch under power-law
data streams
- arxiv url: http://arxiv.org/abs/2102.03743v2
- Date: Thu, 11 Feb 2021 07:27:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-12 10:12:12.639344
- Title: A Bayesian nonparametric approach to count-min sketch under power-law
data streams
- Title(参考訳): パワーローデータストリーム下のカウントミンスケッチに対するベイズ非パラメトリックアプローチ
- Authors: Emanuele Dolera, Stefano Favaro, Stefano Peluchetti
- Abstract要約: カウントミンスケッチ(カウントミンスケッチ、英: count-min sketch、CMS)は、大規模なデータストリームでトークンの周波数を推定するランダム化されたデータ構造である。
我々は,定格データストリームに基づく学習強化型CMSを開発した。
提案手法は低周波トークンの推定において顕著な性能を発揮する。
- 参考スコア(独自算出の注目度): 2.9005223064604078
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The count-min sketch (CMS) is a randomized data structure that provides
estimates of tokens' frequencies in a large data stream using a compressed
representation of the data by random hashing. In this paper, we rely on a
recent Bayesian nonparametric (BNP) view on the CMS to develop a novel
learning-augmented CMS under power-law data streams. We assume that tokens in
the stream are drawn from an unknown discrete distribution, which is endowed
with a normalized inverse Gaussian process (NIGP) prior. Then, using
distributional properties of the NIGP, we compute the posterior distribution of
a token's frequency in the stream, given the hashed data, and in turn
corresponding BNP estimates. Applications to synthetic and real data show that
our approach achieves a remarkable performance in the estimation of
low-frequency tokens. This is known to be a desirable feature in the context of
natural language processing, where it is indeed common in the context of the
power-law behaviour of the data.
- Abstract(参考訳): count-min sketch (cms) は、ランダムハッシュによるデータの圧縮表現を用いて、大きなデータストリーム内のトークンの頻度を推定するランダムデータ構造である。
本論文では、最近のベイズ非パラメトリック(BNP)ビューをCMSに頼って、パワーローデータストリームの下で新しい学習強化CMSを開発する。
ストリーム内のトークンは未知の離散分布から引き出されると仮定し、それ以前に正規化された逆ガウス過程(NIGP)が与えられる。
そして、NIGPの分布特性を用いて、ハッシュデータに基づき、ストリーム内のトークンの周波数の後方分布を計算し、対応するBNP推定を行う。
合成および実データへの応用は,低周波トークンの推定において顕著な性能を達成していることを示す。
これは自然言語処理の文脈において望ましい特徴として知られており、データの力則の振る舞いの文脈では確かに一般的である。
関連論文リスト
- Deep Horseshoe Gaussian Processes [1.0742675209112622]
直交指数核を持つディープ・ガウス過程に基づく新しい単純前処理であるディープ・ホースシュー・ガウス過程(Deep Horseshoe Gaussian process)を紹介する。
本研究は、2次損失から対数係数まで、未知の真の回帰曲線を最適に復元することを示す。
論文 参考訳(メタデータ) (2024-03-04T05:30:43Z) - On the Dynamics of Inference and Learning [0.0]
本稿では,このベイズ更新過程を連続力学系として扱う。
クラムラーラオ境界が飽和すると、学習率は単純な1/T$パワーローによって制御されることを示す。
論文 参考訳(メタデータ) (2022-04-19T18:04:36Z) - Bayesian Structure Learning with Generative Flow Networks [85.84396514570373]
ベイズ構造学習では、データから有向非巡回グラフ(DAG)上の分布を推定することに興味がある。
近年,ジェネレーティブ・フロー・ネットワーク(GFlowNets)と呼ばれる確率モデルのクラスが,ジェネレーティブ・モデリングの一般的なフレームワークとして紹介されている。
DAG-GFlowNetと呼ばれる本手法は,DAGよりも後方の正確な近似を提供する。
論文 参考訳(メタデータ) (2022-02-28T15:53:10Z) - Learning Summary Statistics for Bayesian Inference with Autoencoders [58.720142291102135]
我々は,ディープニューラルネットワークに基づくオートエンコーダの内部次元を要約統計として利用する。
パラメータ関連情報を全て符号化するエンコーダのインセンティブを作成するため,トレーニングデータの生成に使用した暗黙的情報にデコーダがアクセスできるようにする。
論文 参考訳(メタデータ) (2022-01-28T12:00:31Z) - Learning-augmented count-min sketches via Bayesian nonparametrics [2.9005223064604078]
カウントミンスケッチ(カウントミンスケッチ、英: count-min sketch、CMS)は、データストリーム内のトークンの周波数を推定する時間とメモリ効率のよいランダム化データ構造である。
我々はCMS-DPの代替として、より柔軟に導出する。
CMS-PYP(CMS-PYP)は、PYPプリエントを介してストリームのBNPモデリングに依存する。
論文 参考訳(メタデータ) (2021-02-08T16:02:30Z) - Plug-And-Play Learned Gaussian-mixture Approximate Message Passing [71.74028918819046]
そこで本研究では,従来のi.i.d.ソースに適した圧縮圧縮センシング(CS)リカバリアルゴリズムを提案する。
我々のアルゴリズムは、Borgerdingの学習AMP(LAMP)に基づいて構築されるが、アルゴリズムに普遍的な復調関数を採用することにより、それを大幅に改善する。
数値評価により,L-GM-AMPアルゴリズムは事前の知識を必要とせず,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-11-18T16:40:45Z) - Representation Learning for Sequence Data with Deep Autoencoding
Predictive Components [96.42805872177067]
本稿では,シーケンスデータの有用な表現が潜在空間における単純な構造を示すべきという直感に基づく,シーケンスデータの自己教師型表現学習法を提案する。
我々は,過去と将来のウィンドウ間の相互情報である潜在特徴系列の予測情報を最大化することにより,この潜時構造を奨励する。
提案手法は,ノイズの多い動的システムの潜時空間を復元し,タスク予測のための予測特徴を抽出し,エンコーダを大量の未ラベルデータで事前訓練する場合に音声認識を改善する。
論文 参考訳(メタデータ) (2020-10-07T03:34:01Z) - Bootstrapping Neural Processes [114.97111530885093]
ニューラル・プロセス(NP)は、ニューラルネットワークを用いた幅広いプロセスのクラスを暗黙的に定義する。
NPは、プロセスの不確実性は単一の潜在変数によってモデル化されるという仮定に依存している。
本稿では,ブートストラップを用いたNPファミリーの新規拡張であるBoostrapping Neural Process (BNP)を提案する。
論文 参考訳(メタデータ) (2020-08-07T02:23:34Z) - Meta-Learning Stationary Stochastic Process Prediction with
Convolutional Neural Processes [32.02612871707347]
提案するConvNPは,ニューラルプロセス(NP)に翻訳等価性を付与し,畳み込み条件NPを拡張して予測分布への依存性を許容する。
本研究では,1DにおけるConvNPの強い性能と一般化能力,回帰画像補完,実時間データを用いた各種タスクについて述べる。
論文 参考訳(メタデータ) (2020-07-02T18:25:27Z) - Ranking and benchmarking framework for sampling algorithms on synthetic
data streams [0.0]
ビッグデータ、AI、ストリーミング処理では、複数のソースから大量のデータを処理します。
メモリとネットワークの制限のため、分散システム上のデータストリームを処理し、計算とネットワークの負荷を軽減する。
概念のドリフトに反応するアルゴリズムを提供し、我々のフレームワークを用いた最先端のアルゴリズムと比較する。
論文 参考訳(メタデータ) (2020-06-17T14:25:07Z) - Semi-Supervised Learning with Normalizing Flows [54.376602201489995]
FlowGMMは、フローの正規化を伴う生成半教師付き学習におけるエンドツーエンドのアプローチである。
我々は AG-News や Yahoo Answers のテキストデータなど,幅広いアプリケーションに対して有望な結果を示す。
論文 参考訳(メタデータ) (2019-12-30T17:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。