論文の概要: Improving Reliability of Latent Dirichlet Allocation by Assessing Its
Stability Using Clustering Techniques on Replicated Runs
- arxiv url: http://arxiv.org/abs/2003.04980v1
- Date: Fri, 14 Feb 2020 07:10:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-01 03:39:30.359675
- Title: Improving Reliability of Latent Dirichlet Allocation by Assessing Its
Stability Using Clustering Techniques on Replicated Runs
- Title(参考訳): Replicated Runsにおけるクラスタリング手法による遅延ディリクレ割当の安定性評価による信頼性向上
- Authors: Jonas Rieger, Lars Koppers, Carsten Jentsch, and J\"org Rahnenf\"uhrer
- Abstract要約: 本研究は,LDAの安定度を再現走行の代入値と比較することによって検討する。
修正ジャカード係数を用いて、2つの生成トピックの類似性を定量化する。
S-CLOPはLDAモデルの安定性を評価するのに有用であることを示す。
- 参考スコア(独自算出の注目度): 0.3499870393443268
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For organizing large text corpora topic modeling provides useful tools. A
widely used method is Latent Dirichlet Allocation (LDA), a generative
probabilistic model which models single texts in a collection of texts as
mixtures of latent topics. The assignments of words to topics rely on initial
values such that generally the outcome of LDA is not fully reproducible. In
addition, the reassignment via Gibbs Sampling is based on conditional
distributions, leading to different results in replicated runs on the same text
data. This fact is often neglected in everyday practice. We aim to improve the
reliability of LDA results. Therefore, we study the stability of LDA by
comparing assignments from replicated runs. We propose to quantify the
similarity of two generated topics by a modified Jaccard coefficient. Using
such similarities, topics can be clustered. A new pruning algorithm for
hierarchical clustering results based on the idea that two LDA runs create
pairs of similar topics is proposed. This approach leads to the new measure
S-CLOP ({\bf S}imilarity of multiple sets by {\bf C}lustering with {\bf LO}cal
{\bf P}runing) for quantifying the stability of LDA models. We discuss some
characteristics of this measure and illustrate it with an application to real
data consisting of newspaper articles from \textit{USA Today}. Our results show
that the measure S-CLOP is useful for assessing the stability of LDA models or
any other topic modeling procedure that characterize its topics by word
distributions. Based on the newly proposed measure for LDA stability, we
propose a method to increase the reliability and hence to improve the
reproducibility of empirical findings based on topic modeling. This increase in
reliability is obtained by running the LDA several times and taking as
prototype the most representative run, that is the LDA run with highest average
similarity to all other runs.
- Abstract(参考訳): 大規模なテキストコーパストピックモデリングの編成には便利なツールがある。
広く使われている手法はLDA(Latent Dirichlet Allocation)であり、潜在トピックの混合としてテキストの集合内の単一テキストをモデル化する生成確率モデルである。
話題への単語の割り当ては、一般的にLDAの結果が完全に再現できないような初期値に依存する。
さらに、Gibbs Samplingによる再割り当ては条件分布に基づいており、同じテキストデータ上で複製された実行の結果が異なる。
この事実は日常的に無視されることが多い。
LDAの結果の信頼性を向上させることを目的としている。
そこで本研究では,複製実行におけるldaの安定性について検討する。
修正ジャカード係数を用いて、2つの生成トピックの類似性を定量化する。
このような類似性を使ってトピックをクラスタ化することができる。
2つのLDA実行が類似トピックのペアを生成するというアイデアに基づいて,階層クラスタリング結果のための新しいプルーニングアルゴリズムを提案する。
このアプローチにより、ldaモデルの安定性を定量化するための新しい測度 s-clop ({\bf s}imilarity of multiple sets by {\bf c}lustering with {\bf lo}cal {\bf p}runing) が導かれる。
本稿では,この指標の特徴について論じ,それを新聞記事から得られる実データに適用した。
その結果,s-clopはldaモデルの安定性や,その話題を単語分布で特徴づける他のトピックモデリング手法を評価するのに有用であることがわかった。
新たに提案したLDA安定化尺度に基づいて,信頼性を高め,トピックモデリングに基づく実験結果の再現性を向上させる手法を提案する。
この信頼性の向上は、LDAを複数回実行し、プロトタイプとして最も代表的なラン、すなわちLDAのランを他のすべてのランと平均的類似度で実行することで得られる。
関連論文リスト
- Fine-Tuning with Divergent Chains of Thought Boosts Reasoning Through Self-Correction in Language Models [63.36637269634553]
本稿では,複数の推論連鎖を比較するためにモデルを必要とすることによって,性能を向上する新しい手法を提案する。
DCoTデータセットの命令チューニングにより、より小さく、よりアクセスしやすい言語モデルの性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z) - Dataset Condensation with Latent Quantile Matching [5.466962214217334]
電流分布マッチング (DM) に基づく直流法は, 合成外乱と実外乱の遅延埋め込みの平均をマッチングすることにより, 合成データセットを学習する。
本稿では,2つの分布間の適合試験統計量の良さを最小化するために,遅延埋め込みの量子化と一致する潜在量子マッチング(LQM)を提案する。
論文 参考訳(メタデータ) (2024-06-14T09:20:44Z) - Latent Semantic Consensus For Deterministic Geometric Model Fitting [109.44565542031384]
我々はLSC(Latent Semantic Consensus)と呼ばれる効果的な方法を提案する。
LSCは、モデルフィッティング問題をデータポイントとモデル仮説に基づく2つの潜在意味空間に定式化する。
LSCは、一般的な多構造モデルフィッティングのために、数ミリ秒以内で一貫した、信頼性の高いソリューションを提供することができる。
論文 参考訳(メタデータ) (2024-03-11T05:35:38Z) - Multimodal Learned Sparse Retrieval with Probabilistic Expansion Control [66.78146440275093]
学習検索(LSR)は、クエリとドキュメントを疎語彙ベクトルにエンコードするニューラルネットワークのファミリーである。
テキスト画像検索に焦点をあて,マルチモーダル領域へのLSRの適用について検討する。
LexLIPやSTAIRのような現在のアプローチでは、大規模なデータセットで複雑なマルチステップのトレーニングが必要です。
提案手法は, 密度ベクトルを凍結密度モデルからスパース語彙ベクトルへ効率的に変換する。
論文 参考訳(メタデータ) (2024-02-27T14:21:56Z) - Sample Complexity Characterization for Linear Contextual MDPs [67.79455646673762]
文脈決定プロセス(CMDP)は、遷移カーネルと報酬関数がコンテキスト変数によってインデックス付けされた異なるMDPで時間とともに変化できる強化学習のクラスを記述する。
CMDPは、時間とともに変化する環境で多くの現実世界のアプリケーションをモデル化するための重要なフレームワークとして機能する。
CMDPを2つの線形関数近似モデルで検討する: 文脈変化表現とすべての文脈に対する共通線形重み付きモデルIと、すべての文脈に対する共通表現と文脈変化線形重み付きモデルIIである。
論文 参考訳(メタデータ) (2024-02-05T03:25:04Z) - Language as a Latent Sequence: deep latent variable models for
semi-supervised paraphrase generation [47.33223015862104]
本稿では,観測されたテキストから遅延シーケンス推論を行うVSARという新しい教師なしモデルを提案する。
また、テキストペアからの情報を活用するために、提案したVSARモデルと統合するために設計されたDDLと呼ばれる新しい教師付きモデルを導入する。
実験により, このモデルを組み合わせることで, 完全データに基づく最先端の教師付きベースラインに対して, 競争性能が向上することが示唆された。
論文 参考訳(メタデータ) (2023-01-05T19:35:30Z) - Towards Realistic Low-resource Relation Extraction: A Benchmark with
Empirical Baseline Study [51.33182775762785]
本稿では,低リソース環境下での関係抽出システムを構築するための実証的研究について述べる。
低リソース環境での性能を評価するための3つのスキームについて検討する。 (i) ラベル付きラベル付きデータを用いた異なるタイプのプロンプトベース手法、 (ii) 長期分布問題に対処する多様なバランシング手法、 (iii) ラベル付きインドメインデータを生成するためのデータ拡張技術と自己学習。
論文 参考訳(メタデータ) (2022-10-19T15:46:37Z) - Making a (Counterfactual) Difference One Rationale at a Time [5.97507595130844]
本研究では,人的支援を伴わない反現実的データ拡張が,セレクタの性能を向上させることができるかどうかを考察する。
以上の結果から,CDAは関心のシグナルをよりよく捉えた合理性を生み出すことが示唆された。
論文 参考訳(メタデータ) (2022-01-13T19:05:02Z) - ALBU: An approximate Loopy Belief message passing algorithm for LDA to
improve performance on small data sets [3.5027291542274366]
本稿では,LDA(Latent Dirichlet Allocation)に適用した新しい変分メッセージパッシングアルゴリズムを提案する。
金の標準VBとGibsサンプリングアルゴリズムを比較検討した。
テキストコーパスとKLDのコヒーレンス測定とシミュレーションを用いて、ALBUはVBよりも正確な潜伏分布を学習することを示す。
論文 参考訳(メタデータ) (2021-10-01T19:55:12Z) - SPLADE v2: Sparse Lexical and Expansion Model for Information Retrieval [11.38022203865326]
SPLADEモデルは、最先端の高密度かつスパースなアプローチに関して、高度にスパースな表現と競争結果を提供する。
我々は、プール機構を変更し、文書拡張のみに基づいてモデルをベンチマークし、蒸留で訓練されたモデルを導入する。
全体として、SPLADEはTREC DL 2019のNDCG@10で9ドル以上のゲインで大幅に改善され、BEIRベンチマークで最先端の結果が得られた。
論文 参考訳(メタデータ) (2021-09-21T10:43:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。