論文の概要: Learning Topic Models: Identifiability and Finite-Sample Analysis
- arxiv url: http://arxiv.org/abs/2110.04232v1
- Date: Fri, 8 Oct 2021 16:35:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-11 15:29:38.951979
- Title: Learning Topic Models: Identifiability and Finite-Sample Analysis
- Title(参考訳): 学習トピックモデル:識別可能性と有限サンプル分析
- Authors: Yinyin Chen, Shishuang He, Yun Yang and Feng Liang
- Abstract要約: 本稿では,特定の統合可能性に基づく潜在トピックの最大確率推定器(MLE)を提案する。
シミュレーションと実データの両方について実証的研究を行った。
- 参考スコア(独自算出の注目度): 6.181048261489101
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Topic models provide a useful text-mining tool for learning, extracting and
discovering latent structures in large text corpora. Although a plethora of
methods have been proposed for topic modeling, a formal theoretical
investigation on the statistical identifiability and accuracy of latent topic
estimation is lacking in the literature. In this paper, we propose a maximum
likelihood estimator (MLE) of latent topics based on a specific integrated
likelihood, which is naturally connected to the concept of volume minimization
in computational geometry. Theoretically, we introduce a new set of geometric
conditions for topic model identifiability, which are weaker than conventional
separability conditions relying on the existence of anchor words or pure topic
documents. We conduct finite-sample error analysis for the proposed estimator
and discuss the connection of our results with existing ones. We conclude with
empirical studies on both simulated and real datasets.
- Abstract(参考訳): トピックモデルは、大きなテキストコーパスの潜在構造を学習、抽出、発見するための有用なテキストマイニングツールを提供する。
トピックモデリングには多くの手法が提案されているが、潜在話題推定の統計的識別性と正確性に関する形式的理論的研究は文献に欠けている。
本稿では,計算幾何学におけるボリューム最小化の概念と自然に結びついている,特定の統合可能性に基づく潜在トピックの最大可能性推定器(MLE)を提案する。
理論的には、アンカーワードや純粋なトピック文書の存在に依存する従来の分離可能性条件よりも弱いトピックモデル識別可能性のための新しい幾何学的条件を導入する。
提案した推定器の有限サンプル誤差解析を行い,既存の推定器との相関について検討する。
シミュレーションと実データの両方について実証的研究を行った。
関連論文リスト
- Reliability of Topic Modeling [0.3759936323189418]
トピックモデルの信頼性を定量化する標準的な手法は,2つの広く使用されているトピックモデルにおいて,その変動の本質的な側面を捉えるのに失敗することを示す。
合成データと実世界のデータから、マクドナルドの$omega$は信頼性の最高のカプセル化を提供することを示している。
論文 参考訳(メタデータ) (2024-10-30T16:42:04Z) - The Foundations of Tokenization: Statistical and Computational Concerns [51.370165245628975]
トークン化は、NLPパイプラインにおける重要なステップである。
NLPにおける標準表現法としての重要性は認識されているが、トークン化の理論的基盤はまだ完全には理解されていない。
本稿では,トークン化モデルの表現と解析のための統一的な形式的枠組みを提案することによって,この理論的ギャップに対処することに貢献している。
論文 参考訳(メタデータ) (2024-07-16T11:12:28Z) - Interactive Topic Models with Optimal Transport [75.26555710661908]
ラベル名監視型トピックモデリングのためのアプローチとして,EdTMを提案する。
EdTMは、LM/LLMベースのドキュメントトピック親和性を活用しながら、代入問題としてのトピックモデリングをモデル化する。
論文 参考訳(メタデータ) (2024-06-28T13:57:27Z) - The Geometric Structure of Topic Models [0.0]
研究や応用に広く利用されているにもかかわらず、トピックモデルの詳細な分析は依然としてオープンな研究トピックである。
平坦なトピックモデルから順序構造を導出する入射幾何学的手法を提案する。
規則的モチーフに基づく概念階層のための新しい可視化パラダイムを提案する。
論文 参考訳(メタデータ) (2024-03-06T10:53:51Z) - How Well Do Text Embedding Models Understand Syntax? [50.440590035493074]
テキスト埋め込みモデルが幅広い構文的文脈にまたがって一般化する能力は、まだ解明されていない。
その結果,既存のテキスト埋め込みモデルは,これらの構文的理解課題に十分対応していないことが明らかとなった。
多様な構文シナリオにおけるテキスト埋め込みモデルの一般化能力を高めるための戦略を提案する。
論文 参考訳(メタデータ) (2023-11-14T08:51:00Z) - Discovering Interpretable Physical Models using Symbolic Regression and
Discrete Exterior Calculus [55.2480439325792]
本稿では,記号回帰(SR)と離散指数計算(DEC)を組み合わせて物理モデルの自動発見を行うフレームワークを提案する。
DECは、SRの物理問題への最先端の応用を越えている、場の理論の離散的な類似に対して、ビルディングブロックを提供する。
実験データから連続体物理の3つのモデルを再発見し,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-10-10T13:23:05Z) - Topics in the Haystack: Extracting and Evaluating Topics beyond
Coherence [0.0]
本稿では,文と文書のテーマを深く理解する手法を提案する。
これにより、一般的な単語やネオロジズムを含む潜在トピックを検出することができる。
本稿では, 侵入者の単語の人間識別と相関係数を示し, 単語侵入作業において, ほぼ人間レベルの結果を得る。
論文 参考訳(メタデータ) (2023-03-30T12:24:25Z) - Model-agnostic multi-objective approach for the evolutionary discovery
of mathematical models [55.41644538483948]
現代のデータ科学では、どの部分がより良い結果を得るために置き換えられるかというモデルの性質を理解することがより興味深い。
合成データ駆動型モデル学習において,多目的進化最適化を用いてアルゴリズムの所望特性を求める。
論文 参考訳(メタデータ) (2021-07-07T11:17:09Z) - Amortized Bayesian model comparison with evidential deep learning [0.12314765641075436]
本稿では,専門的なディープラーニングアーキテクチャを用いたベイズモデルの比較手法を提案する。
提案手法は純粋にシミュレーションベースであり,観測された各データセットに対して,すべての代替モデルを明示的に適合させるステップを回避している。
提案手法は,本研究で検討した事例に対して,精度,キャリブレーション,効率の点で優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2020-04-22T15:15:46Z) - How Far are We from Effective Context Modeling? An Exploratory Study on
Semantic Parsing in Context [59.13515950353125]
文法に基づく意味解析を行い,その上に典型的な文脈モデリング手法を適用する。
我々は,2つの大きなクロスドメインデータセットに対して,13のコンテキストモデリング手法を評価した。
論文 参考訳(メタデータ) (2020-02-03T11:28:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。