論文の概要: Effective Neural Topic Modeling with Embedding Clustering Regularization
- arxiv url: http://arxiv.org/abs/2306.04217v1
- Date: Wed, 7 Jun 2023 07:45:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-08 15:50:28.665061
- Title: Effective Neural Topic Modeling with Embedding Clustering Regularization
- Title(参考訳): 埋め込みクラスタリング規則化による効果的なニューラルトピックモデリング
- Authors: Xiaobao Wu, Xinshuai Dong, Thong Nguyen, Anh Tuan Luu
- Abstract要約: 新しいニューラルトピックモデルであるクラスタリング規則化トピックモデル(ECRTM)を提案する。
ECRTMは各トピックの埋め込みを、セマンティック空間内の個別に集約されたワード埋め込みクラスタの中心に強制する。
我々のECRTMは文書の質の高いトピック分布とともに多様で一貫性のあるトピックを生成する。
- 参考スコア(独自算出の注目度): 21.692088899479934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Topic models have been prevalent for decades with various applications.
However, existing topic models commonly suffer from the notorious topic
collapsing: discovered topics semantically collapse towards each other, leading
to highly repetitive topics, insufficient topic discovery, and damaged model
interpretability. In this paper, we propose a new neural topic model, Embedding
Clustering Regularization Topic Model (ECRTM). Besides the existing
reconstruction error, we propose a novel Embedding Clustering Regularization
(ECR), which forces each topic embedding to be the center of a separately
aggregated word embedding cluster in the semantic space. This enables each
produced topic to contain distinct word semantics, which alleviates topic
collapsing. Regularized by ECR, our ECRTM generates diverse and coherent topics
together with high-quality topic distributions of documents. Extensive
experiments on benchmark datasets demonstrate that ECRTM effectively addresses
the topic collapsing issue and consistently surpasses state-of-the-art
baselines in terms of topic quality, topic distributions of documents, and
downstream classification tasks.
- Abstract(参考訳): トピックモデルは様々な応用で数十年にわたって普及してきた。
しかし、既存のトピックモデルは一般的に、悪名高いトピックの崩壊に悩まされる: 発見されたトピックは互いに意味的に崩壊し、非常に反復的なトピック、不十分なトピック発見、損傷したモデル解釈可能性をもたらす。
本稿では,クラスタリング正規化トピックモデル(ecrtm)を組み込んだ新しいニューラルトピックモデルを提案する。
既存の再構成誤りに加えて,各トピックをセマンティクス空間における個別に集約された単語埋め込みクラスタの中心とする,新たな埋め込みクラスタリング正規化(ecr)を提案する。
これにより、それぞれのトピックに異なる単語セマンティクスが含まれ、トピックの崩壊を軽減することができる。
ECRによって正規化され、ECRTMは文書の質の高いトピック分布とともに多様で一貫性のあるトピックを生成する。
ベンチマークデータセットに関する大規模な実験により、ECRTMはトピック崩壊問題に効果的に対処し、トピックの品質、文書のトピック分布、下流分類タスクの点において、最先端のベースラインを一貫して超えることを示した。
関連論文リスト
- Enhanced Short Text Modeling: Leveraging Large Language Models for Topic Refinement [7.6115889231452964]
トピックリファインメント(Topic Refinement)と呼ばれる新しいアプローチを導入する。
このアプローチは、トピックの初期のモデリングに直接関係せず、採掘後にトピックを改善することに重点を置いています。
素早いエンジニアリングを駆使して、所与のトピック内での話題外単語を排除し、文脈的に関係のある単語だけが、よりセマンティックに適合した単語で保存または置換されることを保証する。
論文 参考訳(メタデータ) (2024-03-26T13:50:34Z) - Topic Taxonomy Expansion via Hierarchy-Aware Topic Phrase Generation [58.3921103230647]
TopicExpanというトピック分類拡張のための新しいフレームワークを提案する。
TopicExpanは、新しいトピックに属するトピック関連用語を直接生成する。
2つの実世界のテキストコーパスの実験結果から、TopicExpanは出力の質という点で他のベースライン手法よりも優れていた。
論文 参考訳(メタデータ) (2022-10-18T22:38:49Z) - Knowledge-Aware Bayesian Deep Topic Model [50.58975785318575]
本稿では,事前知識を階層型トピックモデリングに組み込むベイズ生成モデルを提案する。
提案モデルでは,事前知識を効率的に統合し,階層的なトピック発見と文書表現の両面を改善する。
論文 参考訳(メタデータ) (2022-09-20T09:16:05Z) - Topic Discovery via Latent Space Clustering of Pretrained Language Model
Representations [35.74225306947918]
本研究では, PLM 埋め込みを基盤とした空間学習とクラスタリングの連携フレームワークを提案する。
提案モデルでは,トピック発見のためにPLMがもたらす強力な表現力と言語的特徴を効果的に活用する。
論文 参考訳(メタデータ) (2022-02-09T17:26:08Z) - TaxoCom: Topic Taxonomy Completion with Hierarchical Discovery of Novel
Topic Clusters [57.59286394188025]
我々はTaxoComというトピック分類の完成のための新しい枠組みを提案する。
TaxoComは、用語と文書の新たなサブトピッククラスタを発見する。
2つの実世界のデータセットに関する包括的実験により、TaxoComは、用語の一貫性とトピックカバレッジの観点から、高品質なトピック分類を生成するだけでなく、高品質なトピック分類を生成することを実証した。
論文 参考訳(メタデータ) (2022-01-18T07:07:38Z) - TopicNet: Semantic Graph-Guided Topic Discovery [51.71374479354178]
既存の階層的なトピックモデルでは、教師なしの方法でテキストコーパスから意味論的意味のあるトピックを抽出することができる。
TopicNetを階層的なトピックモデルとして導入し、学習に影響を与えるための帰納的バイアスとして、事前構造知識を注入する。
論文 参考訳(メタデータ) (2021-10-27T09:07:14Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - Neural Topic Modeling with Cycle-Consistent Adversarial Training [17.47328718035538]
本稿では, 周期整合適応訓練(ToMCAT)によるトピックモデリングとその教師付きバージョン sToMCAT を提案する。
ToMCATは、トピックを解釈するジェネレータネットワークと、ドキュメントトピックを推論するエンコーダネットワークを使用している。
SToMCATはトピックモデリングプロセスにドキュメントラベルを組み込むことでToMCATを拡張し、より一貫性のあるトピックの発見を支援する。
論文 参考訳(メタデータ) (2020-09-29T12:41:27Z) - Topic-Aware Multi-turn Dialogue Modeling [91.52820664879432]
本稿では,トピック認識発話を教師なしでセグメント化して抽出する,多元対話モデリングのための新しいソリューションを提案する。
トピック・アウェア・モデリングは、新たに提案されたトピック・アウェア・セグメンテーション・アルゴリズムとトピック・アウェア・デュアル・アテンション・マッチング(TADAM)ネットワークによって実現されている。
論文 参考訳(メタデータ) (2020-09-26T08:43:06Z) - Context Reinforced Neural Topic Modeling over Short Texts [15.487822291146689]
文脈強化ニューラルトピックモデル(CRNTM)を提案する。
CRNTMは各単語のトピックを狭い範囲で推測し、各短いテキストがわずかにまとまったトピックだけをカバーしていると仮定する。
2つのベンチマークデータセットの実験は、トピック発見とテキスト分類の両方において提案モデルの有効性を検証する。
論文 参考訳(メタデータ) (2020-08-11T06:41:53Z) - Tired of Topic Models? Clusters of Pretrained Word Embeddings Make for
Fast and Good Topics too! [5.819224524813161]
事前学習した単語の埋め込みをクラスタリングし、重み付けされたクラスタリングと上位単語の再ランク付けのための文書情報を組み込んだ別の方法を提案する。
このアプローチの最も優れた組み合わせは、従来のトピックモデルと同様に機能するが、ランタイムと計算の複雑さは低い。
論文 参考訳(メタデータ) (2020-04-30T16:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。