論文の概要: Is Neural Topic Modelling Better than Clustering? An Empirical Study on
Clustering with Contextual Embeddings for Topics
- arxiv url: http://arxiv.org/abs/2204.09874v1
- Date: Thu, 21 Apr 2022 04:26:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-22 13:24:09.255068
- Title: Is Neural Topic Modelling Better than Clustering? An Empirical Study on
Clustering with Contextual Embeddings for Topics
- Title(参考訳): ニューラルトピックモデリングはクラスタリングより優れているか?
トピックのコンテキスト埋め込みによるクラスタリングに関する実証的研究
- Authors: Zihan Zhang, Meng Fang, Ling Chen, Mohammad-Reza Namazi-Rad
- Abstract要約: 最近の研究は、学習済み単語埋め込みをニューラルトピックモデル(NTM)に組み込んでいる。
本稿では,高品質な文の埋め込みを適切な単語選択手法で直接クラスタリングすることで,NTMよりも一貫性と多種多様なトピックを生成できることを示す。
- 参考スコア(独自算出の注目度): 28.13990734234436
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work incorporates pre-trained word embeddings such as BERT embeddings
into Neural Topic Models (NTMs), generating highly coherent topics. However,
with high-quality contextualized document representations, do we really need
sophisticated neural models to obtain coherent and interpretable topics? In
this paper, we conduct thorough experiments showing that directly clustering
high-quality sentence embeddings with an appropriate word selecting method can
generate more coherent and diverse topics than NTMs, achieving also higher
efficiency and simplicity.
- Abstract(参考訳): 最近の研究は、BERT埋め込みのような事前訓練された単語埋め込みをニューラルトピックモデル(NTM)に組み込み、高度に一貫性のあるトピックを生成する。
しかし、高品質なコンテキスト化されたドキュメント表現では、一貫性と解釈可能なトピックを得るために、本当に高度なニューラルネットワークが必要か?
本稿では,高品質な文の埋め込みを適切な単語選択手法で直接クラスタリングすることで,NTMよりも一貫性と多種多様なトピックを生成できることを示す。
関連論文リスト
- Enhanced Short Text Modeling: Leveraging Large Language Models for Topic Refinement [7.6115889231452964]
トピックリファインメント(Topic Refinement)と呼ばれる新しいアプローチを導入する。
このアプローチは、トピックの初期のモデリングに直接関係せず、採掘後にトピックを改善することに重点を置いています。
素早いエンジニアリングを駆使して、所与のトピック内での話題外単語を排除し、文脈的に関係のある単語だけが、よりセマンティックに適合した単語で保存または置換されることを保証する。
論文 参考訳(メタデータ) (2024-03-26T13:50:34Z) - HyperMiner: Topic Taxonomy Mining with Hyperbolic Embedding [54.52651110749165]
本稿では,単語や話題を表現するために,メタボリック埋め込みを導入した新しいフレームワークを提案する。
双曲空間のツリー様性により、下層のセマンティック階層はより解釈可能なトピックをマイニングするためによりうまく利用することができる。
論文 参考訳(メタデータ) (2022-10-16T02:54:17Z) - Knowledge-Aware Bayesian Deep Topic Model [50.58975785318575]
本稿では,事前知識を階層型トピックモデリングに組み込むベイズ生成モデルを提案する。
提案モデルでは,事前知識を効率的に統合し,階層的なトピック発見と文書表現の両面を改善する。
論文 参考訳(メタデータ) (2022-09-20T09:16:05Z) - TopicNet: Semantic Graph-Guided Topic Discovery [51.71374479354178]
既存の階層的なトピックモデルでは、教師なしの方法でテキストコーパスから意味論的意味のあるトピックを抽出することができる。
TopicNetを階層的なトピックモデルとして導入し、学習に影響を与えるための帰納的バイアスとして、事前構造知識を注入する。
論文 参考訳(メタデータ) (2021-10-27T09:07:14Z) - Obtaining Better Static Word Embeddings Using Contextual Embedding
Models [53.86080627007695]
提案手法はCBOWをベースとした簡易な蒸留法である。
副作用として、我々の手法は文脈的および静的な埋め込みの公正な比較を可能にする。
論文 参考訳(メタデータ) (2021-06-08T12:59:32Z) - Be More with Less: Hypergraph Attention Networks for Inductive Text
Classification [56.98218530073927]
グラフニューラルネットワーク(GNN)は、研究コミュニティで注目され、この標準タスクで有望な結果を実証している。
成功にもかかわらず、それらのパフォーマンスは、単語間の高次相互作用をキャプチャできないため、実際は大部分が危険に晒される可能性がある。
本稿では,テキスト表現学習において,少ない計算量でより表現力の高いハイパーグラフアテンションネットワーク(HyperGAT)を提案する。
論文 参考訳(メタデータ) (2020-11-01T00:21:59Z) - Improving Neural Topic Models using Knowledge Distillation [84.66983329587073]
我々は,確率論的トピックモデルと事前学習されたトランスフォーマーの最適属性を組み合わせるために,知識蒸留を用いる。
我々のモジュラー手法は、どのニューラルトピックモデルでも簡単に適用でき、トピックの品質を向上させることができる。
論文 参考訳(メタデータ) (2020-10-05T22:49:16Z) - Neural Topic Model via Optimal Transport [24.15046280736009]
最適輸送理論(OT)を用いたニューラルトピックモデルを提案する。
具体的には、文書の単語分布に対するOT距離を直接最小化し、文書の話題分布を学習することを提案する。
提案手法は, 異なる損失を伴って効率的に学習することができる。
論文 参考訳(メタデータ) (2020-08-12T06:37:09Z) - Context Reinforced Neural Topic Modeling over Short Texts [15.487822291146689]
文脈強化ニューラルトピックモデル(CRNTM)を提案する。
CRNTMは各単語のトピックを狭い範囲で推測し、各短いテキストがわずかにまとまったトピックだけをカバーしていると仮定する。
2つのベンチマークデータセットの実験は、トピック発見とテキスト分類の両方において提案モデルの有効性を検証する。
論文 参考訳(メタデータ) (2020-08-11T06:41:53Z) - Tired of Topic Models? Clusters of Pretrained Word Embeddings Make for
Fast and Good Topics too! [5.819224524813161]
事前学習した単語の埋め込みをクラスタリングし、重み付けされたクラスタリングと上位単語の再ランク付けのための文書情報を組み込んだ別の方法を提案する。
このアプローチの最も優れた組み合わせは、従来のトピックモデルと同様に機能するが、ランタイムと計算の複雑さは低い。
論文 参考訳(メタデータ) (2020-04-30T16:18:18Z) - Pre-training is a Hot Topic: Contextualized Document Embeddings Improve
Topic Coherence [29.874072827824627]
提案手法は,従来のbag-of-wordsトピックモデルや最近のニューラルモデルよりも有意義で一貫性のあるトピックを生成する。
以上の結果から,言語モデルの今後の改良は,より優れたトピックモデルに変換されることが示唆された。
論文 参考訳(メタデータ) (2020-04-08T12:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。