論文の概要: Iterative Improvement of an Additively Regularized Topic Model
- arxiv url: http://arxiv.org/abs/2408.05840v3
- Date: Wed, 25 Sep 2024 20:50:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 11:49:24.873145
- Title: Iterative Improvement of an Additively Regularized Topic Model
- Title(参考訳): 追加正規化トピックモデルの反復的改善
- Authors: Alex Gorbulev, Vasiliy Alekseev, Konstantin Vorontsov,
- Abstract要約: 本稿では,トピックモデルの反復的学習法を提案する。
いくつかの自然言語テキストの収集実験により、提案したITARモデルは、他の人気のあるトピックモデルよりも優れた性能を示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Topic modelling is fundamentally a soft clustering problem (of known objects -- documents, over unknown clusters -- topics). That is, the task is incorrectly posed. In particular, the topic models are unstable and incomplete. All this leads to the fact that the process of finding a good topic model (repeated hyperparameter selection, model training, and topic quality assessment) can be particularly long and labor-intensive. We aim to simplify the process, to make it more deterministic and provable. To this end, we present a method for iterative training of a topic model. The essence of the method is that a series of related topic models are trained so that each subsequent model is at least as good as the previous one, i.e., that it retains all the good topics found earlier. The connection between the models is achieved by additive regularization. The result of this iterative training is the last topic model in the series, which we call the iteratively updated additively regularized topic model (ITAR). Experiments conducted on several collections of natural language texts show that the proposed ITAR model performs better than other popular topic models (LDA, ARTM, BERTopic), its topics are diverse, and its perplexity (ability to "explain" the underlying data) is moderate.
- Abstract(参考訳): トピックモデリングは、基本的にはソフトなクラスタリングの問題である(既知のオブジェクト -- ドキュメント、未知のクラスタ -- トピック)。
つまり、そのタスクは正しくない。
特に、トピックモデルは不安定で不完全です。
これらすべてが、優れたトピックモデル(反復的ハイパーパラメータ選択、モデルトレーニング、トピック品質評価)を見つけるプロセスが特に長く、労働集約的であるという事実につながります。
私たちはプロセスを単純化し、決定論的かつ証明しやすくすることを目指しています。
そこで本研究では,トピックモデルの反復的学習手法を提案する。
この手法の本質は、一連の関連するトピックモデルがトレーニングされ、後続のモデルが少なくとも以前のモデル、すなわち、より早く見つかった良いトピックを全て保持するように訓練されることである。
モデル間の接続は加法正規化によって達成される。
この反復学習の結果、シリーズの最後のトピックモデルとなり、反復的に更新された追加正規化トピックモデル(ITAR)と呼ばれる。
いくつかの自然言語テキストのコレクションで実施された実験によると、提案されたITARモデルは、他の一般的なトピックモデル(LDA、ARTM、BERTopic)よりもパフォーマンスが良く、トピックは多様であり、その難易度(基礎となるデータを"説明"する能力)は適度である。
関連論文リスト
- Enhancing Short-Text Topic Modeling with LLM-Driven Context Expansion and Prefix-Tuned VAEs [25.915607750636333]
本稿では,大規模言語モデル(LLM)を利用して,トピックモデリングを適用する前に,短いテキストをより詳細なシーケンスに拡張する手法を提案する。
提案手法は,データ空間が極端である実世界のデータセットに対する広範な実験により,短文のトピックモデリング性能を著しく向上させる。
論文 参考訳(メタデータ) (2024-10-04T01:28:56Z) - Investigating the Impact of Text Summarization on Topic Modeling [13.581341206178525]
本稿では,事前学習型大言語モデル(LLM)を用いてトピックモデリング性能をさらに向上する手法を提案する。
トピックモデリングへの影響を比較するために、異なる長さの要約を生成するために、ショットプロンプトはほとんど使われない。
提案手法は,従来のモデルと比較して,トピックの多様性とコヒーレンス値に比較して優れている。
論文 参考訳(メタデータ) (2024-09-28T19:45:45Z) - An Iterative Approach to Topic Modelling [0.0]
本稿では,プロセス完了時のトピックの完全性の感覚を生じさせるトピックモデリングを反復的に行うことを提案する。
本稿では,クラスタリング比較において選択した3つの尺度のうちの1つを用いて,さらに改善できないトピックの集合に,モデルプロセスが反復的に適用可能であることを実証する。
論文 参考訳(メタデータ) (2024-07-25T09:26:07Z) - Let the Pretrained Language Models "Imagine" for Short Texts Topic
Modeling [29.87929724277381]
短いテキストでは、共起情報は最小限であり、結果として文書表現の特徴が分散する。
既存のトピックモデル(確率的あるいは神経的)は、ほとんどの場合、一貫性のあるトピックを生成するためにパターンのマイニングに失敗します。
既存の事前学習言語モデル(PLM)を用いて、短いテキストを長いシーケンスに拡張する。
論文 参考訳(メタデータ) (2023-10-24T00:23:30Z) - Neural Dynamic Focused Topic Model [2.9005223064604078]
ニューラル変動推論の最近の進歩を活用し、ダイナミックフォーカストピックモデルに代替的なニューラルアプローチを提案する。
本稿では,Bernoulli確率変数の列を利用してトピックの出現を追跡するトピック進化のためのニューラルモデルを開発する。
論文 参考訳(メタデータ) (2023-01-26T08:37:34Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Are Neural Topic Models Broken? [81.15470302729638]
トピックモデルの自動評価と人的評価の関係について検討する。
ニューラルトピックモデルは、確立された古典的手法と比較して、両方の点においてより悪くなる。
論文 参考訳(メタデータ) (2022-10-28T14:38:50Z) - Knowledge-Aware Bayesian Deep Topic Model [50.58975785318575]
本稿では,事前知識を階層型トピックモデリングに組み込むベイズ生成モデルを提案する。
提案モデルでは,事前知識を効率的に統合し,階層的なトピック発見と文書表現の両面を改善する。
論文 参考訳(メタデータ) (2022-09-20T09:16:05Z) - Exploring Strategies for Generalizable Commonsense Reasoning with
Pre-trained Models [62.28551903638434]
モデルの一般化と精度に及ぼす3つの異なる適応法の影響を計測する。
2つのモデルを用いた実験では、微調整はタスクの内容と構造の両方を学習することで最もうまく機能するが、過度に適合し、新しい答えへの限定的な一般化に苦しむ。
我々は、プレフィックスチューニングのような代替適応手法が同等の精度を持つのを観察するが、解を見落とさずに一般化し、対数分割に対してより堅牢である。
論文 参考訳(メタデータ) (2021-09-07T03:13:06Z) - Improving Neural Topic Models using Knowledge Distillation [84.66983329587073]
我々は,確率論的トピックモデルと事前学習されたトランスフォーマーの最適属性を組み合わせるために,知識蒸留を用いる。
我々のモジュラー手法は、どのニューラルトピックモデルでも簡単に適用でき、トピックの品質を向上させることができる。
論文 参考訳(メタデータ) (2020-10-05T22:49:16Z) - Topic Adaptation and Prototype Encoding for Few-Shot Visual Storytelling [81.33107307509718]
トピック間一般化の能力をモデル化するためのトピック適応型ストーリーテラを提案する。
また,アトピー内導出能力のモデル化を目的とした符号化手法の試作も提案する。
実験結果から,トピック適応とプロトタイプ符号化構造が相互に利益をもたらすことが明らかとなった。
論文 参考訳(メタデータ) (2020-08-11T03:55:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。