論文の概要: Learning-augmented count-min sketches via Bayesian nonparametrics
- arxiv url: http://arxiv.org/abs/2102.04462v1
- Date: Mon, 8 Feb 2021 16:02:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-10 18:51:14.699140
- Title: Learning-augmented count-min sketches via Bayesian nonparametrics
- Title(参考訳): ベイズ非パラメトリックスによる学習型カウントミンスケッチ
- Authors: Emanuele Dolera, Stefano Favaro, Stefano Peluchetti
- Abstract要約: カウントミンスケッチ(カウントミンスケッチ、英: count-min sketch、CMS)は、データストリーム内のトークンの周波数を推定する時間とメモリ効率のよいランダム化データ構造である。
我々はCMS-DPの代替として、より柔軟に導出する。
CMS-PYP(CMS-PYP)は、PYPプリエントを介してストリームのBNPモデリングに依存する。
- 参考スコア(独自算出の注目度): 2.9005223064604078
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The count-min sketch (CMS) is a time and memory efficient randomized data
structure that provides estimates of tokens' frequencies in a data stream, i.e.
point queries, based on random hashed data. Learning-augmented CMSs improve the
CMS by learning models that allow to better exploit data properties. In this
paper, we focus on the learning-augmented CMS of Cai, Mitzenmacher and Adams
(\textit{NeurIPS} 2018), which relies on Bayesian nonparametric (BNP) modeling
of a data stream via Dirichlet process (DP) priors. This is referred to as the
CMS-DP, and it leads to BNP estimates of a point query as posterior means of
the point query given the hashed data. While BNPs is proved to be a powerful
tool for developing robust learning-augmented CMSs, ideas and methods behind
the CMS-DP are tailored to point queries under DP priors, and they can not be
used for other priors or more general queries. In this paper, we present an
alternative, and more flexible, derivation of the CMS-DP such that: i) it
allows to make use of the Pitman-Yor process (PYP) prior, which is arguably the
most popular generalization of the DP prior; ii) it can be readily applied to
the more general problem of estimating range queries. This leads to develop a
novel learning-augmented CMS under power-law data streams, referred to as the
CMS-PYP, which relies on BNP modeling of the stream via PYP priors.
Applications to synthetic and real data show that the CMS-PYP outperforms the
CMS and the CMS-DP in the estimation of low-frequency tokens; this known to be
a critical feature in natural language processing, where it is indeed common to
encounter power-law data streams.
- Abstract(参考訳): count-min sketch (CMS) は、データストリーム内のトークンの周波数の推定を提供する時間およびメモリ効率の良いランダム化データ構造である。
ランダムなハッシュデータに基づくポイントクエリ。
学習強化CMSは、データプロパティをより活用できるモデルを学ぶことでCMSを改善します。
本稿では,Cai,Mitzenmacher,Adams(\textit{NeurIPS} 2018)の学習強化CMSに注目する。このCMSは,Dirichletプロセス(DP)によるデータストリームのベイズ非パラメトリック(BNP)モデリングに依存している。
これはCMS-DPと呼ばれ、ハッシュされたデータからポイントクエリの後方手段としてポイントクエリのBNP推定につながります。
BNPは、堅牢な学習強化CMSを開発するための強力なツールであることが証明されているが、CMS-DPの背後にあるアイデアとメソッドは、DPプリエントでのポイントクエリに適合しており、他の事前やより一般的なクエリには使用できない。
本稿では,より柔軟なCMS-DPの導出方法を提案する。i) PYP(Pitman-Yor Process)を事前に使用することが可能であり,DPの最も一般的な一般化である;i)レンジクエリのより一般的な問題に対して容易に適用可能である。
これにより、PYP経由でストリームのBNPモデリングに依存するCMS-PYPと呼ばれるパワーローデータストリームの下で、新しい学習強化CMSを開発することができる。
合成データおよび実データへの適用は、CMS-PYPが低周波トークンの推定においてCMSとCMS-DPを上回っていることを示しています。
関連論文リスト
- A Bayesian Approach to Data Point Selection [24.98069363998565]
データポイントの選択(DPS)は、ディープラーニングにおいて重要なトピックになりつつある。
既存のDPSへのアプローチは、主にバイレベル最適化(BLO)の定式化に基づいている。
DPSに対する新しいベイズ的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-06T09:04:13Z) - Data Selection via Optimal Control for Language Models [134.67665351539725]
本研究は,大規模コーパスから高品質な事前学習データを選択することにより,下流利用におけるLMの能力を向上させることを目的とする。
PMP条件を解くことで最適なデータ選択を近似するフレームワークであるPMPベースのデータ選択(PDS)を導入する。
PDSの利点は、スケーリング法則に従ってテスト損失曲線の外挿によって証明されたように、10Tトークンでトレーニングされた400Bモデルにまで拡張される。
論文 参考訳(メタデータ) (2024-10-09T17:06:57Z) - Noise-Aware Differentially Private Regression via Meta-Learning [25.14514068630219]
差別化プライバシ(DP)は、ユーザのプライバシを保護するための金の標準であるが、標準のDPメカニズムはパフォーマンスを著しく損なう。
この問題を緩和する1つのアプローチは、DPがプライベートデータで学習する前にシミュレーションデータ上でモデルを事前訓練することである。
本研究では、シミュレーションデータを用いて、畳み込み条件ニューラルネットワーク(ConvCNP)と改良された機能DPメカニズムを組み合わせたメタ学習モデルをトレーニングする。
論文 参考訳(メタデータ) (2024-06-12T18:11:24Z) - Count-mean Sketch as an Optimized Framework for Frequency Estimation with Local Differential Privacy [0.0]
パラメータの異なるプライベートなCount-Mean Sketch(CMS)アルゴリズムを再検討する。
我々は既存のバイアスを取り除くためにCMSの実装を変更します。
ペアワイズ非依存ハッシュがCMSに十分であることを示す。
論文 参考訳(メタデータ) (2024-06-06T06:55:08Z) - Rethinking Few-shot 3D Point Cloud Semantic Segmentation [62.80639841429669]
本稿では,FS-PCSによる3Dポイント・クラウドセマンティックセマンティックセグメンテーションについて再検討する。
我々は、最先端の2つの重要な問題、前景の漏洩とスパースポイントの分布に焦点をあてる。
これらの問題に対処するために、新しいベンチマークを構築するための標準化されたFS-PCS設定を導入する。
論文 参考訳(メタデータ) (2024-03-01T15:14:47Z) - Great Truths are Always Simple: A Rather Simple Knowledge Encoder for
Enhancing the Commonsense Reasoning Capacity of Pre-Trained Models [89.98762327725112]
自然言語における常識推論は、人工知能システムの望ましい能力である。
複雑なコモンセンス推論タスクを解決するための典型的な解決策は、知識対応グラフニューラルネットワーク(GNN)エンコーダで事前訓練された言語モデル(PTM)を強化することである。
有効性にもかかわらず、これらのアプローチは重いアーキテクチャ上に構築されており、外部知識リソースがPTMの推論能力をどのように改善するかを明確に説明できない。
論文 参考訳(メタデータ) (2022-05-04T01:27:36Z) - Semi-Markov Offline Reinforcement Learning for Healthcare [57.15307499843254]
本稿では,SDQN,SDDQN,SBCQという3つのオフラインRLアルゴリズムを紹介する。
変動時間環境において,これらのアルゴリズムのみが最適ポリシーを学習できることを実験的に実証した。
我々は,脳卒中予防のためのウォーファリン投与に関連する実世界のオフラインデータセットに,我々の新しいアルゴリズムを適用した。
論文 参考訳(メタデータ) (2022-03-17T14:51:21Z) - Evaluating natural language processing models with generalization
metrics that do not need access to any training or testing data [66.11139091362078]
本稿では,Hugingface から事前学習した大規模トランスフォーマーに対して,一般化指標を用いた最初のモデル選択結果を提案する。
ニッチな状況にもかかわらず、ヘビーテール(HT)の観点から派生したメトリクスは、特にNLPタスクにおいて有用である。
論文 参考訳(メタデータ) (2022-02-06T20:07:35Z) - A Bayesian nonparametric approach to count-min sketch under power-law
data streams [2.9005223064604078]
カウントミンスケッチ(カウントミンスケッチ、英: count-min sketch、CMS)は、大規模なデータストリームでトークンの周波数を推定するランダム化されたデータ構造である。
我々は,定格データストリームに基づく学習強化型CMSを開発した。
提案手法は低周波トークンの推定において顕著な性能を発揮する。
論文 参考訳(メタデータ) (2021-02-07T08:36:00Z) - Hard and Soft EM in Bayesian Network Learning from Incomplete Data [1.5484595752241122]
結果のBNの品質に対する信念伝搬の代わりにインプテーションを使用することの影響について検討する。
我々は,データの特徴に基づいて,複数のシナリオにおいて,あるアプローチを推奨できることを見出した。
論文 参考訳(メタデータ) (2020-12-09T19:13:32Z) - User-Level Privacy-Preserving Federated Learning: Analysis and
Performance Optimization [77.43075255745389]
フェデレートラーニング(FL)は、データを有用なモデルにトレーニングしながら、モバイル端末(MT)からプライベートデータを保存することができる。
情報理論の観点からは、MTがアップロードした共有モデルから、好奇心の強いサーバがプライベートな情報を推測することが可能である。
サーバにアップロードする前に、共有モデルに人工ノイズを加えることで、ユーザレベルの差分プライバシー(UDP)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-29T10:13:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。