論文の概要: Likelihood estimation of sparse topic distributions in topic models and
its applications to Wasserstein document distance calculations
- arxiv url: http://arxiv.org/abs/2107.05766v1
- Date: Mon, 12 Jul 2021 22:22:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-14 14:32:40.535825
- Title: Likelihood estimation of sparse topic distributions in topic models and
its applications to Wasserstein document distance calculations
- Title(参考訳): トピックモデルにおけるスパーストピック分布の確率推定とwasserstein文書距離計算への応用
- Authors: Xin Bing and Florentina Bunea and Seth Strimas-Mackey and Marten
Wegkamp
- Abstract要約: トピックモデルでは、$ptimes n$予測ワード頻度行列は$ptimes K$ワードトピック行列$A$として分解される。
A$の列は、すべてのドキュメントに共通する$p$の混合コンポーネントと見なされる。
A$が未知の場合、プラグインに対応する可能性関数を最適化して$T$を見積もる。
- 参考スコア(独自算出の注目度): 3.679981089267181
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies the estimation of high-dimensional, discrete, possibly
sparse, mixture models in topic models. The data consists of observed
multinomial counts of $p$ words across $n$ independent documents. In topic
models, the $p\times n$ expected word frequency matrix is assumed to be
factorized as a $p\times K$ word-topic matrix $A$ and a $K\times n$
topic-document matrix $T$. Since columns of both matrices represent conditional
probabilities belonging to probability simplices, columns of $A$ are viewed as
$p$-dimensional mixture components that are common to all documents while
columns of $T$ are viewed as the $K$-dimensional mixture weights that are
document specific and are allowed to be sparse. The main interest is to provide
sharp, finite sample, $\ell_1$-norm convergence rates for estimators of the
mixture weights $T$ when $A$ is either known or unknown. For known $A$, we
suggest MLE estimation of $T$. Our non-standard analysis of the MLE not only
establishes its $\ell_1$ convergence rate, but reveals a remarkable property:
the MLE, with no extra regularization, can be exactly sparse and contain the
true zero pattern of $T$. We further show that the MLE is both minimax optimal
and adaptive to the unknown sparsity in a large class of sparse topic
distributions. When $A$ is unknown, we estimate $T$ by optimizing the
likelihood function corresponding to a plug in, generic, estimator $\hat{A}$ of
$A$. For any estimator $\hat{A}$ that satisfies carefully detailed conditions
for proximity to $A$, the resulting estimator of $T$ is shown to retain the
properties established for the MLE. The ambient dimensions $K$ and $p$ are
allowed to grow with the sample sizes. Our application is to the estimation of
1-Wasserstein distances between document generating distributions. We propose,
estimate and analyze new 1-Wasserstein distances between two probabilistic
document representations.
- Abstract(参考訳): 本稿では,トピックモデルにおける高次元,離散的,おそらくスパースな混合モデルの推定について検討する。
データは、$n$独立文書にまたがる$p$ワードの観測された多項数からなる。
トピックモデルでは、$p\times n$ 期待語周波数行列は$p\times k$ word-topic matrix $a$ と$k\times n$ topic-document matrix $t$ と推定される。
両方の行列の列は確率単純化に属する条件付き確率を表すので、$a$の列はすべての文書に共通する$p$-次元の混合成分と見なされ、$t$の列は文書固有の$k$-次元の混合重みと見なされる。
主な関心は、シャープで有限のサンプルである$\ell_1$-norm収束率を提供することである。
既知の$A$については、MLEの推定に$T$を提案する。
我々の MLE の非標準解析は $\ell_1$ 収束率を確立するだけでなく、顕著な性質を明らかにしている: MLE は余分な正規化を持たず、正確にスパースであり、真の $T$ の零パターンを含むことができる。
さらに、MLEは、スパース分布の大規模なクラスにおいて、未知の空間に適応し、最小限の最適であることを示す。
A$ が未知の場合、プラグイン、ジェネリック、推定器 $\hat{A}$ of $A$ に対応する可能性関数を最適化することで$T$ を推定する。
任意の推定器 $\hat{A}$ が$A$ に近いような詳細な条件を満たす場合、結果として生じる$T$ の推定器は MLE で確立されたプロパティを保持する。
周囲寸法$K$と$p$はサンプルサイズで成長することができる。
本稿では,文書生成分布間の1-wasserstein距離の推定を行う。
2つの確率的文書表現間の新しい1-wasserstein距離を提案し,推定し,解析する。
関連論文リスト
- Optimal Sketching for Residual Error Estimation for Matrix and Vector Norms [50.15964512954274]
線形スケッチを用いた行列とベクトルノルムの残差誤差推定問題について検討する。
これは、前作とほぼ同じスケッチサイズと精度で、経験的にかなり有利であることを示す。
また、スパースリカバリ問題に対して$Omega(k2/pn1-2/p)$低いバウンダリを示し、これは$mathrmpoly(log n)$ factorまで厳密である。
論文 参考訳(メタデータ) (2024-08-16T02:33:07Z) - Revisiting Step-Size Assumptions in Stochastic Approximation [1.3654846342364308]
この論文は、一般的なマルコフ的な設定でステップサイズの選択を再考する。
大きな結論は、$rho =0$ または $rho1/2$ の選択は、選択した設定でのみ正当化されるということである。
論文 参考訳(メタデータ) (2024-05-28T05:11:05Z) - $L^1$ Estimation: On the Optimality of Linear Estimators [64.76492306585168]
この研究は、条件中央値の線型性を誘導する$X$上の唯一の先行分布がガウス分布であることを示している。
特に、条件分布 $P_X|Y=y$ がすべての$y$に対して対称であるなら、$X$ はガウス分布に従う必要がある。
論文 参考訳(メタデータ) (2023-09-17T01:45:13Z) - Random matrices in service of ML footprint: ternary random features with
no performance loss [55.30329197651178]
我々は、$bf K$ の固有スペクトルが$bf w$ の i.d. 成分の分布とは独立であることを示す。
3次ランダム特徴(TRF)と呼ばれる新しいランダム手法を提案する。
提案したランダムな特徴の計算には乗算が不要であり、古典的なランダムな特徴に比べてストレージに$b$のコストがかかる。
論文 参考訳(メタデータ) (2021-10-05T09:33:49Z) - Spectral properties of sample covariance matrices arising from random
matrices with independent non identically distributed columns [50.053491972003656]
関数 $texttr(AR(z))$, for $R(z) = (frac1nXXT- zI_p)-1$ and $Ain mathcal M_p$ deterministic, have a standard deviation of order $O(|A|_* / sqrt n)$.
ここでは、$|mathbb E[R(z)] - tilde R(z)|_F を示す。
論文 参考訳(メタデータ) (2021-09-06T14:21:43Z) - Chi-square and normal inference in high-dimensional multi-task
regression [7.310043452300736]
本稿では,Multi-Task(MT)線形モデルにおける未知の係数行列$B*$サイズ$ptimes T$に対するカイ二乗法および正規手法を提案する。
論文 参考訳(メタデータ) (2021-07-16T11:19:49Z) - Sparse sketches with small inversion bias [79.77110958547695]
逆バイアスは、逆の共分散に依存する量の推定を平均化するときに生じる。
本研究では、確率行列に対する$(epsilon,delta)$-unbiased estimatorという概念に基づいて、逆バイアスを解析するためのフレームワークを開発する。
スケッチ行列 $S$ が密度が高く、すなわちサブガウスのエントリを持つとき、$(epsilon,delta)$-unbiased for $(Atop A)-1$ は $m=O(d+sqrt d/ のスケッチを持つ。
論文 参考訳(メタデータ) (2020-11-21T01:33:15Z) - List-Decodable Mean Estimation in Nearly-PCA Time [50.79691056481693]
高次元におけるリストデコタブル平均推定の基本的な課題について検討する。
我々のアルゴリズムは、すべての$k = O(sqrtd) cup Omega(d)$に対して$widetildeO(ndk)$で実行されます。
我々のアルゴリズムの変種は、すべての$k$に対してランタイム$widetildeO(ndk)$を持ち、リカバリ保証の$O(sqrtlog k)$ Factorを犠牲にしている。
論文 参考訳(メタデータ) (2020-11-19T17:21:37Z) - Efficient Statistics for Sparse Graphical Models from Truncated Samples [19.205541380535397]
i) スパースガウス図形モデルの推論と (ii) スパース線形モデルの回復支援の2つの基本的問題と古典的問題に焦点をあてる。
疎線型回帰については、$(bf x,y)$ が生成されるが、$y = bf xtopOmega* + MathcalN(0,1)$ と $(bf x, y)$ は、truncation set $S subseteq mathbbRd$ に属する場合にのみ見られる。
論文 参考訳(メタデータ) (2020-06-17T09:21:00Z) - Optimal estimation of sparse topic models [3.308743964406688]
本稿では、要素的にスパースである可能性のある$A$の推定について検討し、$K$のトピックの数は不明である。
我々は、そのような$A$を推定するための新しいミニマックスローバウンドを導出し、そのリカバリのための新しい計算効率の良いアルゴリズムを提案する。
我々の推定値は、未知の$A$に適応し、我々の分析は、任意の有限$n$、$p$、$K$および文書長に対して有効である。
論文 参考訳(メタデータ) (2020-01-22T03:19:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。