論文の概要: Posterior Sampling of Probabilistic Word Embeddings
- arxiv url: http://arxiv.org/abs/2508.02337v1
- Date: Mon, 04 Aug 2025 12:20:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.322142
- Title: Posterior Sampling of Probabilistic Word Embeddings
- Title(参考訳): 確率的単語埋め込みの後方サンプリング
- Authors: Väinö Yrjänäinen, Isac Boström, Måns Magnusson, Johan Jonasson,
- Abstract要約: 単語埋め込みにおける不確実性の定量化は、テキストデータからの信頼できる推測に不可欠である。
本稿では,Polya-Gamma Augmentation とLaplace Approximation を用いたスケーラブルな Gibbs サンプリング手法を提案する。
Gibbsサンプルを米国議会とMovielensデータセットに適用することにより、より大規模な実データの実現可能性を示す。
- 参考スコア(独自算出の注目度): 2.0401030227086396
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quantifying uncertainty in word embeddings is crucial for reliable inference from textual data. However, existing Bayesian methods such as Hamiltonian Monte Carlo (HMC) and mean-field variational inference (MFVI) are either computationally infeasible for large data or rely on restrictive assumptions. We propose a scalable Gibbs sampler using Polya-Gamma augmentation as well as Laplace approximation and compare them with MFVI and HMC for word embeddings. In addition, we address non-identifiability in word embeddings. Our Gibbs sampler and HMC correctly estimate uncertainties, while MFVI does not, and Laplace approximation only does so on large sample sizes, as expected. Applying the Gibbs sampler to the US Congress and the Movielens datasets, we demonstrate the feasibility on larger real data. Finally, as a result of having draws from the full posterior, we show that the posterior mean of word embeddings improves over maximum a posteriori (MAP) estimates in terms of hold-out likelihood, especially for smaller sampling sizes, further strengthening the need for posterior sampling of word embeddings.
- Abstract(参考訳): 単語埋め込みにおける不確実性の定量化は、テキストデータからの信頼できる推測に不可欠である。
しかし、ハミルトニアン・モンテカルロ (HMC) や平均場変動推論 (MFVI) のような既存のベイズ的手法は、大容量データに対して計算不可能であるか、制限的な仮定に依存するかのいずれかである。
本稿では,Polya-Gamma拡張とLaplace近似を用いたスケーラブルなギブスサンプリング手法を提案し,単語埋め込みにおけるMFVIおよびHMCとの比較を行った。
さらに,単語埋め込みにおける非識別性についても検討する。
我々のGibbsサンプルとHMCは、MFVIでは予測できない不確かさを正確に推定し、Laplace近似は予想通り大きなサンプルサイズでのみ行う。
Gibbsサンプルを米国議会とMovielensデータセットに適用することにより、より大規模な実データの実現可能性を示す。
最後に, 単語埋込量の最大値(MAP)の推定値よりも, 特により小さいサンプリングサイズにおいて, 単語埋込量の最大値(MAP)の推定値が向上し, 単語埋込量の後方サンプリングの必要性がさらに高まった。
関連論文リスト
- Uncertainty Quantification for Prior-Data Fitted Networks using Martingale Posteriors [3.2776121301272183]
本論文では,マルティンゲール後部に基づく推定のためのベイズ後部構造を構築するための,原理的かつ効率的なサンプリング手法を提案する。
いくつかのシミュレーションおよび実世界のデータ例は、推論応用における我々の手法の不確かさの定量化を示している。
論文 参考訳(メタデータ) (2025-05-16T14:47:43Z) - Likelihood-Free Adaptive Bayesian Inference via Nonparametric Distribution Matching [2.0319002824093015]
本稿では,従来のデータ空間の相違を回避したフレームワークであるAdaptive Bayesian Inference (ABI)を提案する。
ABIは、後続分布間のばらつきを測定する問題を、条件付き量子レグレッションタスクのトラクタブルシーケンスに変換する。
ABIはデータベースであるWasserstein, 要約ベースABC, 最先端の可能性のないシミュレータを著しく上回っていることを実証する。
論文 参考訳(メタデータ) (2025-05-07T17:50:14Z) - Predictive variational inference: Learn the predictively optimal posterior distribution [1.7648680700685022]
バニラ変量推論はベイズ後部分布に最適な近似を求めるが、正確なベイズ後部分布でさえモデル的不特定の下では意味がないことが多い。
本稿では,最適後続密度から標本を探索する一般推論フレームワークである予測変分推論(PVI)を提案する。
論文 参考訳(メタデータ) (2024-10-18T19:44:57Z) - Implicit Manifold Gaussian Process Regression [49.0787777751317]
ガウス過程の回帰は、よく校正された不確実性推定を提供するために広く用いられている。
これは、データが実際に存在する暗黙の低次元多様体のため、高次元データに苦しむ。
本稿では,データ(ラベル付きおよびラベルなし)から直接暗黙構造を完全に微分可能な方法で推定できる手法を提案する。
論文 参考訳(メタデータ) (2023-10-30T09:52:48Z) - Calibrating Neural Simulation-Based Inference with Differentiable
Coverage Probability [50.44439018155837]
ニューラルモデルのトレーニング目的に直接キャリブレーション項を含めることを提案する。
古典的なキャリブレーション誤差の定式化を緩和することにより、エンドツーエンドのバックプロパゲーションを可能にする。
既存の計算パイプラインに直接適用でき、信頼性の高いブラックボックス後部推論が可能である。
論文 参考訳(メタデータ) (2023-10-20T10:20:45Z) - GFlowOut: Dropout with Generative Flow Networks [76.59535235717631]
モンテカルロ・ドロップアウトは近似推論の比較的安価な方法として広く利用されている。
最近の研究は、ドロップアウトマスクを潜伏変数と見なすことができ、変動推論で推測できることを示している。
GFlowOutleveragesは、最近提案されたジェネレーティブフローネットワーク(GFlowNets)の確率的フレームワークを使用して、ドロップアウトマスク上の後部分布を学習する。
論文 参考訳(メタデータ) (2022-10-24T03:00:01Z) - Score Matching for Truncated Density Estimation on a Manifold [6.53626518989653]
近年, トラッピング密度推定にスコアマッチングを用いる方法が提案されている。
我々は、境界を持つリーマン多様体に一致するトランカットされたスコアの新たな拡張を示す。
シミュレーションデータ実験において、スコアマッチング推定器は真のパラメータ値を低い推定誤差で近似することができる。
論文 参考訳(メタデータ) (2022-06-29T14:14:49Z) - Instance-Optimal Compressed Sensing via Posterior Sampling [101.43899352984774]
後部サンプリング推定器がほぼ最適回復保証を達成できることを示す。
本稿では,Langevin dynamics を用いた深部生成前駆体の後方サンプリング推定器を実装し,MAP よりも精度の高い推定値が得られることを実証的に見出した。
論文 参考訳(メタデータ) (2021-06-21T22:51:56Z) - What Are Bayesian Neural Network Posteriors Really Like? [63.950151520585024]
ハミルトニアンモンテカルロは、標準およびディープアンサンブルよりも大きな性能向上を達成できることを示す。
また,深部分布は標準SGLDとHMCに類似しており,標準変動推論に近いことが示された。
論文 参考訳(メタデータ) (2021-04-29T15:38:46Z) - On the Replicability of Combining Word Embeddings and Retrieval Models [71.18271398274513]
我々は、Fisherカーネルフレームワークの使用に関する魅力的な仮説を実証しようとする最近の実験を再現する。
具体的には、von Mises-Fisher (VMF) 分布の混合モデルを使用することは、VMF とベクトル空間モデルの両方の余弦距離に焦点をあてることによって有益である。
論文 参考訳(メタデータ) (2020-01-13T19:01:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。