論文の概要: Estimation and inference for the Wasserstein distance between mixing measures in topic models
- arxiv url: http://arxiv.org/abs/2206.12768v3
- Date: Sun, 8 Sep 2024 23:55:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 06:18:42.503939
- Title: Estimation and inference for the Wasserstein distance between mixing measures in topic models
- Title(参考訳): トピックモデルにおける混合測度間のワッサーシュタイン距離の推定と推定
- Authors: Xin Bing, Florentina Bunea, Jonathan Niles-Weed,
- Abstract要約: 混合測度間のワッサーシュタイン距離は混合モデルの統計解析において中心的な位置を占めるようになった。
この研究は、この距離の新しい標準解釈を提案し、トピックモデルにおけるワッサーシュタイン距離の推論を行うためのツールを提供する。
- 参考スコア(独自算出の注目度): 18.66039789963639
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Wasserstein distance between mixing measures has come to occupy a central place in the statistical analysis of mixture models. This work proposes a new canonical interpretation of this distance and provides tools to perform inference on the Wasserstein distance between mixing measures in topic models. We consider the general setting of an identifiable mixture model consisting of mixtures of distributions from a set $\mathcal{A}$ equipped with an arbitrary metric $d$, and show that the Wasserstein distance between mixing measures is uniquely characterized as the most discriminative convex extension of the metric $d$ to the set of mixtures of elements of $\mathcal{A}$. The Wasserstein distance between mixing measures has been widely used in the study of such models, but without axiomatic justification. Our results establish this metric to be a canonical choice. Specializing our results to topic models, we consider estimation and inference of this distance. Though upper bounds for its estimation have been recently established elsewhere, we prove the first minimax lower bounds for the estimation of the Wasserstein distance in topic models. We also establish fully data-driven inferential tools for the Wasserstein distance in the topic model context. Our results apply to potentially sparse mixtures of high-dimensional discrete probability distributions. These results allow us to obtain the first asymptotically valid confidence intervals for the Wasserstein distance in topic models.
- Abstract(参考訳): 混合測度間のワッサーシュタイン距離は混合モデルの統計解析において中心的な位置を占めるようになった。
本研究は、この距離の新しい標準解釈を提案し、トピックモデルにおける混合測度間のワッサーシュタイン距離の推論を行うためのツールを提供する。
任意の計量 $d$ を持つ集合 $\mathcal{A}$ の分布の混合からなる同定可能な混合モデルの一般的な設定を考えると、混合測度間のワッサーシュタイン距離は、$\mathcal{A}$ の要素の混合集合に対する計量 $d$ の最も差別的な凸拡大として一意に特徴づけられることを示す。
混合測度間のワッサーシュタイン距離はそのようなモデルの研究で広く用いられているが、公理的な正当化は行われていない。
我々の結果は、この計量を正準選択と定めている。
本研究の結果をトピックモデルに特化して,この距離の推定と推定について検討する。
その推定の上限は最近他の場所で確立されているが、トピックモデルにおけるワッサーシュタイン距離の推定のための最初のミニマックス下限を証明している。
また、トピックモデルコンテキストにおいて、Wasserstein距離の完全なデータ駆動推論ツールを構築します。
この結果は、高次元離散確率分布のスパース混合に応用できる。
これらの結果により、トピックモデルにおけるワッサーシュタイン距離に対する最初の漸近的に有効な信頼区間が得られる。
関連論文リスト
- Summarizing Bayesian Nonparametric Mixture Posterior -- Sliced Optimal Transport Metrics for Gaussian Mixtures [10.694077392690447]
混合モデルの後方推論を要約する既存の方法は、クラスタリングのための暗黙のランダムパーティションの点推定を同定することに焦点を当てている。
本研究では,非パラメトリックベイズ混合モデルにおける後部推論を要約し,混合度(または混合度)の密度推定を推論対象として優先順位付けする手法を提案する。
論文 参考訳(メタデータ) (2024-11-22T02:15:38Z) - Sobolev Space Regularised Pre Density Models [51.558848491038916]
本研究では,ソボレフ法則の正則化に基づく非パラメトリック密度推定法を提案する。
この方法は統計的に一貫したものであり、帰納的検証モデルを明確かつ一貫したものにしている。
論文 参考訳(メタデータ) (2023-07-25T18:47:53Z) - Density Ratio Estimation via Infinitesimal Classification [85.08255198145304]
そこで我々は, DRE-inftyを提案する。 DRE-inftyは, 密度比推定(DRE)を, より簡単なサブプロブレムに還元する手法である。
モンテカルロ法にインスパイアされ、中間ブリッジ分布の無限連続体を介して2つの分布の間を滑らかに補間する。
提案手法は,複雑な高次元データセット上での相互情報推定やエネルギーベースモデリングなどの下流タスクにおいて良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-22T06:26:29Z) - Tangent Space and Dimension Estimation with the Wasserstein Distance [10.118241139691952]
ユークリッド空間の滑らかなコンパクト部分多様体の近くで独立にサンプリングされた点の集合を考える。
我々は、その多様体の次元と接空間の両方を推定するために必要なサンプル点の数について数学的に厳密な境界を与える。
論文 参考訳(メタデータ) (2021-10-12T21:02:06Z) - Depth-based pseudo-metrics between probability distributions [1.1470070927586016]
本研究では,データ深度に基づく連続確率測度と関連する中央領域の2つの疑似測度を提案する。
Wasserstein距離とは対照的に、提案された疑似メトリックは次元の呪いに苦しむことはない。
地域ベースの擬似メトリックは堅牢なw.r.tである。
両端と尾が重い。
論文 参考訳(メタデータ) (2021-03-23T17:33:18Z) - Continuous Wasserstein-2 Barycenter Estimation without Minimax
Optimization [94.18714844247766]
ワッサーシュタイン・バリセンターは、最適輸送に基づく確率測度の重み付き平均の幾何学的概念を提供する。
本稿では,Wasserstein-2 バリセンタのサンプルアクセスを演算するスケーラブルなアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-02T21:01:13Z) - Two-sample Test using Projected Wasserstein Distance [18.46110328123008]
統計学と機械学習の基本的な問題である2サンプルテストのための予測されたワッサースタイン距離を開発する。
重要な貢献は、投影された確率分布の間のワッサーシュタイン距離を最大化する低次元線型写像を見つけるために最適射影を結合することである。
論文 参考訳(メタデータ) (2020-10-22T18:08:58Z) - On Projection Robust Optimal Transport: Sample Complexity and Model
Misspecification [101.0377583883137]
射影ロバスト(PR)OTは、2つの測度の間のOTコストを最大化するために、射影可能な$k$次元部分空間を選択する。
私たちの最初の貢献は、PRワッサーシュタイン距離のいくつかの基本的な統計的性質を確立することである。
次に、部分空間を最適化するのではなく平均化することにより、PRW距離の代替として積分PRワッサーシュタイン距離(IPRW)を提案する。
論文 参考訳(メタデータ) (2020-06-22T14:35:33Z) - When OT meets MoM: Robust estimation of Wasserstein Distance [8.812837829361923]
本稿では,2つの確率分布間のワッサーシュタイン距離を,観測結果が外れ値によって汚染されると推定する問題を考察する。
データ汚染モデルに基づいて, 一貫性を検証した新しいMoMベースのロバスト推定器について紹介し, 議論する。
そこで本研究では,シンクホーンアルゴリズムと組み合わせて使用可能な,シンプルなMoMに基づく再重み付け手法を提案する。
論文 参考訳(メタデータ) (2020-06-18T07:31:39Z) - Minimax Optimal Estimation of KL Divergence for Continuous Distributions [56.29748742084386]
Kullback-Leibler の同一および独立に分布するサンプルからの発散は、様々な領域において重要な問題である。
単純で効果的な推定器の1つは、これらのサンプル間の近辺 k に基づいている。
論文 参考訳(メタデータ) (2020-02-26T16:37:37Z) - Distributed, partially collapsed MCMC for Bayesian Nonparametrics [68.5279360794418]
ディリクレ法やベータ・ベルヌーリ法のようなモデルでよく用いられる完全無作為測度は独立な部分測度に分解可能であるという事実を利用する。
この分解を用いて、潜在測度を、インスタンス化された成分のみを含む有限測度と、他のすべての成分を含む無限測度に分割する。
得られたハイブリッドアルゴリズムは、収束保証を犠牲にすることなくスケーラブルな推論を可能にすることができる。
論文 参考訳(メタデータ) (2020-01-15T23:10:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。