論文の概要: Quantifying consistency and accuracy of Latent Dirichlet Allocation
- arxiv url: http://arxiv.org/abs/2511.12850v1
- Date: Mon, 17 Nov 2025 00:44:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.581014
- Title: Quantifying consistency and accuracy of Latent Dirichlet Allocation
- Title(参考訳): 潜伏ディリクレ配置の整合性と精度の定量化
- Authors: Saranzaya Magsarjav, Melissa Humphries, Jonathan Tuke, Lewis Mitchell,
- Abstract要約: 確率論的トピックモデルは、その性質により再実行時に異なる結果を生成することができ、潜在トピックの不整合を引き起こす。
この不安定性は、複製性、信頼性、解釈に影響を与え、トピックモデルが意味のあるトピックをキャプチャするかどうか、あるいは単にノイズをキャプチャするかどうかに関する懸念を提起する。
LDAが文書中のトピック数を正確に決定できることが示される。
- 参考スコア(独自算出の注目度): 2.099922236065961
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Topic modelling in Natural Language Processing uncovers hidden topics in large, unlabelled text datasets. It is widely applied in fields such as information retrieval, content summarisation, and trend analysis across various disciplines. However, probabilistic topic models can produce different results when rerun due to their stochastic nature, leading to inconsistencies in latent topics. Factors like corpus shuffling, rare text removal, and document elimination contribute to these variations. This instability affects replicability, reliability, and interpretation, raising concerns about whether topic models capture meaningful topics or just noise. To address these problems, we defined a new stability measure that incorporates accuracy and consistency and uses the generative properties of LDA to generate a new corpus with ground truth. These generated corpora are run through LDA 50 times to determine the variability in the output. We show that LDA can correctly determine the underlying number of topics in the documents. We also find that LDA is more internally consistent, as the multiple reruns return similar topics; however, these topics are not the true topics.
- Abstract(参考訳): 自然言語処理におけるトピックモデリングは、大規模で遅延のないテキストデータセットに隠されたトピックを明らかにする。
情報検索、コンテンツ要約、トレンド分析などの分野に広く応用されている。
しかし確率論的トピックモデルは、確率的な性質のために再実行時に異なる結果を生み出すことができ、潜在トピックの不整合をもたらす。
コーパスシャッフル、まれなテキスト削除、文書の削除といった要因が、これらのバリエーションに寄与する。
この不安定性は、複製性、信頼性、解釈に影響を与え、トピックモデルが意味のあるトピックをキャプチャするかどうか、あるいは単にノイズをキャプチャするかどうかに関する懸念を提起する。
これらの問題に対処するため、我々は、精度と一貫性を取り入れた新しい安定度尺度を定義し、LDAの生成特性を用いて、基底真理を持つ新しいコーパスを生成する。
これらの生成されたコーパスは、出力の変動性を決定するためにLDA50回実行される。
LDAが文書中のトピック数を正確に決定できることが示される。
また、複数の再実行で同様のトピックが返されるため、LDAはより内部的に一貫性があることがわかったが、これらのトピックは真のトピックではない。
関連論文リスト
- The Medium Is Not the Message: Deconfounding Document Embeddings via Linear Concept Erasure [98.71456610527598]
埋め込みベースの類似度メトリクスは、テキストのソースや言語のような刺激的な属性に影響される可能性がある。
本稿では,エンコーダ表現から観測された共同創設者に関する情報を除去するデバイアスアルゴリズムにより,これらのバイアスを最小の計算コストで大幅に低減することを示す。
論文 参考訳(メタデータ) (2025-07-01T23:17:12Z) - Learning by Surprise: Surplexity for Mitigating Model Collapse in Generative AI [1.6545633988217645]
合成コンテンツがWebに浸透するにつれて、生成的AIモデルは自身の出力で再訓練される可能性がある。
これによってモデルが崩壊し、世代間でパフォーマンスと多様性が徐々に失われます。
本稿では,モデルの次点確率分布から直接崩壊を特徴付ける新しい尺度を提案する。
論文 参考訳(メタデータ) (2024-10-16T08:02:48Z) - Counterfactual Generation with Identifiability Guarantees [41.894343061841084]
我々は,MATTE (doMain AdapTive counTerfactual gEneration model) を開発した。
本研究は, 対物生成タスクに係わるコンテンツとスタイル変数の領域依存性に対処する。
本フレームワークは,教師なし型転送タスクにおける最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-02-23T13:24:19Z) - RegaVAE: A Retrieval-Augmented Gaussian Mixture Variational Auto-Encoder
for Language Modeling [79.56442336234221]
可変オートエンコーダ(VAE)に基づく検索拡張言語モデルであるRegaVAEを紹介する。
テキストコーパスを潜在空間にエンコードし、ソースとターゲットの両方のテキストから現在と将来の情報をキャプチャする。
各種データセットに対する実験結果から,テキスト生成品質と幻覚除去の大幅な改善が示された。
論文 参考訳(メタデータ) (2023-10-16T16:42:01Z) - How to Handle Different Types of Out-of-Distribution Scenarios in Computational Argumentation? A Comprehensive and Fine-Grained Field Study [59.13867562744973]
この研究は、オフ・オブ・ディストリビューション(OOD)シナリオにおけるLMの能力を体系的に評価する。
このような学習パラダイムの有効性は,OODの種類によって異なることがわかった。
具体的には、ICLはドメインシフトに優れているが、プロンプトベースの微調整はトピックシフトに勝っている。
論文 参考訳(メタデータ) (2023-09-15T11:15:47Z) - A Data-driven Latent Semantic Analysis for Automatic Text Summarization
using LDA Topic Modelling [0.0]
本研究では、トピックモデリングを行うために使用されるLDA(Latent Dirichlet Allocation)アプローチを提案する。
可視化は主要なトピックを概観し、個々のトピックに対する深い意味を許容し、帰結させる。
その結果,処理文書中の話題の出現確率を考慮し,純粋にランク付けされた用語が示唆された。
論文 参考訳(メタデータ) (2022-07-23T11:04:03Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z) - Evaluating Factuality in Generation with Dependency-level Entailment [57.5316011554622]
本稿では,依存弧のレベルで分解するエンテーメントの新たな定式化を提案する。
このデータに基づいて訓練された依存関係弧包含モデルにより,文レベルの手法よりもパラフレーズ化や要約における現実的不整合を識別できることが示されている。
論文 参考訳(メタデータ) (2020-10-12T06:43:10Z) - Improving Reliability of Latent Dirichlet Allocation by Assessing Its
Stability Using Clustering Techniques on Replicated Runs [0.3499870393443268]
本研究は,LDAの安定度を再現走行の代入値と比較することによって検討する。
修正ジャカード係数を用いて、2つの生成トピックの類似性を定量化する。
S-CLOPはLDAモデルの安定性を評価するのに有用であることを示す。
論文 参考訳(メタデータ) (2020-02-14T07:10:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。