論文の概要: Topic Discovery via Latent Space Clustering of Pretrained Language Model
Representations
- arxiv url: http://arxiv.org/abs/2202.04582v1
- Date: Wed, 9 Feb 2022 17:26:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-10 15:04:20.448439
- Title: Topic Discovery via Latent Space Clustering of Pretrained Language Model
Representations
- Title(参考訳): 事前学習言語モデル表現の潜在空間クラスタリングによる話題発見
- Authors: Yu Meng, Yunyi Zhang, Jiaxin Huang, Yu Zhang, Jiawei Han
- Abstract要約: 本研究では, PLM 埋め込みを基盤とした空間学習とクラスタリングの連携フレームワークを提案する。
提案モデルでは,トピック発見のためにPLMがもたらす強力な表現力と言語的特徴を効果的に活用する。
- 参考スコア(独自算出の注目度): 35.74225306947918
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Topic models have been the prominent tools for automatic topic discovery from
text corpora. Despite their effectiveness, topic models suffer from several
limitations including the inability of modeling word ordering information in
documents, the difficulty of incorporating external linguistic knowledge, and
the lack of both accurate and efficient inference methods for approximating the
intractable posterior. Recently, pretrained language models (PLMs) have brought
astonishing performance improvements to a wide variety of tasks due to their
superior representations of text. Interestingly, there have not been standard
approaches to deploy PLMs for topic discovery as better alternatives to topic
models. In this paper, we begin by analyzing the challenges of using PLM
representations for topic discovery, and then propose a joint latent space
learning and clustering framework built upon PLM embeddings. In the latent
space, topic-word and document-topic distributions are jointly modeled so that
the discovered topics can be interpreted by coherent and distinctive terms and
meanwhile serve as meaningful summaries of the documents. Our model effectively
leverages the strong representation power and superb linguistic features
brought by PLMs for topic discovery, and is conceptually simpler than topic
models. On two benchmark datasets in different domains, our model generates
significantly more coherent and diverse topics than strong topic models, and
offers better topic-wise document representations, based on both automatic and
human evaluations.
- Abstract(参考訳): トピックモデルはテキストコーパスからの自動トピック発見のための重要なツールである。
その効果にもかかわらず、トピックモデルは文書内の単語順序情報をモデル化できないこと、外部言語知識を組み込むことの難しさ、難解な後部を近似するための正確かつ効率的な推論方法の欠如など、いくつかの制限に悩まされている。
近年,プレトレーニング言語モデル (PLM) は,テキストの表現が優れているため,様々なタスクに驚くべき性能向上をもたらしている。
興味深いことに、トピックモデルに代わるものとしてトピック発見のためのplmをデプロイする標準的なアプローチは存在していない。
本稿では,トピック発見に PLM 表現を用いる際の課題を分析し,その上で PLM 埋め込みを基盤とした協調型潜在空間学習とクラスタリングフレームワークを提案する。
潜在空間では、トピックワードとドキュメントトピックの分布を共同でモデル化し、発見されたトピックを一貫性のある言葉で解釈し、文書の意義ある要約として機能させる。
提案モデルは,トピック発見のためにPLMがもたらす強力な表現力と言語的特徴を効果的に活用し,概念的にはトピックモデルよりもシンプルである。
異なる領域における2つのベンチマークデータセットにおいて、我々のモデルは強力なトピックモデルよりも一貫性があり多様なトピックを生成し、自動評価と人的評価の両方に基づいて、より優れたトピック指向の文書表現を提供する。
関連論文リスト
- Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - Enhancing Short-Text Topic Modeling with LLM-Driven Context Expansion and Prefix-Tuned VAEs [25.915607750636333]
本稿では,大規模言語モデル(LLM)を利用して,トピックモデリングを適用する前に,短いテキストをより詳細なシーケンスに拡張する手法を提案する。
提案手法は,データ空間が極端である実世界のデータセットに対する広範な実験により,短文のトピックモデリング性能を著しく向上させる。
論文 参考訳(メタデータ) (2024-10-04T01:28:56Z) - Interactive Topic Models with Optimal Transport [75.26555710661908]
ラベル名監視型トピックモデリングのためのアプローチとして,EdTMを提案する。
EdTMは、LM/LLMベースのドキュメントトピック親和性を活用しながら、代入問題としてのトピックモデリングをモデル化する。
論文 参考訳(メタデータ) (2024-06-28T13:57:27Z) - Enhanced Short Text Modeling: Leveraging Large Language Models for Topic Refinement [7.6115889231452964]
トピックリファインメント(Topic Refinement)と呼ばれる新しいアプローチを導入する。
このアプローチは、トピックの初期のモデリングに直接関係せず、採掘後にトピックを改善することに重点を置いています。
素早いエンジニアリングを駆使して、所与のトピック内での話題外単語を排除し、文脈的に関係のある単語だけが、よりセマンティックに適合した単語で保存または置換されることを保証する。
論文 参考訳(メタデータ) (2024-03-26T13:50:34Z) - Large Language Models Offer an Alternative to the Traditional Approach of Topic Modelling [0.9095496510579351]
広範テキストコーパス内の話題を明らかにする代替手段として,大規模言語モデル (LLM) の未解決の可能性について検討する。
本研究は, 適切なプロンプトを持つLCMが, トピックのタイトルを生成でき, トピックを洗練, マージするためのガイドラインに固執する上で, 有効な代替手段として目立たせることを示唆している。
論文 参考訳(メタデータ) (2024-03-24T17:39:51Z) - Prompting Large Language Models for Topic Modeling [10.31712610860913]
大規模言語モデル(LLM)の高度な言語理解を活用する新しいトピックモデリング手法であるPromptTopicを提案する。
個々の文書から文章レベルでトピックを抽出し、これらのトピックを事前定義された量に集約して凝縮し、最終的に様々な長さのテキストに対して一貫性のあるトピックを提供する。
PromptTopicを3つの非常に多様なデータセットの最先端のベースラインに対してベンチマークし、意味のあるトピックを発見する能力を確立しました。
論文 参考訳(メタデータ) (2023-12-15T11:15:05Z) - Let the Pretrained Language Models "Imagine" for Short Texts Topic
Modeling [29.87929724277381]
短いテキストでは、共起情報は最小限であり、結果として文書表現の特徴が分散する。
既存のトピックモデル(確率的あるいは神経的)は、ほとんどの場合、一貫性のあるトピックを生成するためにパターンのマイニングに失敗します。
既存の事前学習言語モデル(PLM)を用いて、短いテキストを長いシーケンスに拡張する。
論文 参考訳(メタデータ) (2023-10-24T00:23:30Z) - Knowledge-Aware Bayesian Deep Topic Model [50.58975785318575]
本稿では,事前知識を階層型トピックモデリングに組み込むベイズ生成モデルを提案する。
提案モデルでは,事前知識を効率的に統合し,階層的なトピック発見と文書表現の両面を改善する。
論文 参考訳(メタデータ) (2022-09-20T09:16:05Z) - Topic-Aware Multi-turn Dialogue Modeling [91.52820664879432]
本稿では,トピック認識発話を教師なしでセグメント化して抽出する,多元対話モデリングのための新しいソリューションを提案する。
トピック・アウェア・モデリングは、新たに提案されたトピック・アウェア・セグメンテーション・アルゴリズムとトピック・アウェア・デュアル・アテンション・マッチング(TADAM)ネットワークによって実現されている。
論文 参考訳(メタデータ) (2020-09-26T08:43:06Z) - Topic Adaptation and Prototype Encoding for Few-Shot Visual Storytelling [81.33107307509718]
トピック間一般化の能力をモデル化するためのトピック適応型ストーリーテラを提案する。
また,アトピー内導出能力のモデル化を目的とした符号化手法の試作も提案する。
実験結果から,トピック適応とプロトタイプ符号化構造が相互に利益をもたらすことが明らかとなった。
論文 参考訳(メタデータ) (2020-08-11T03:55:11Z) - How Far are We from Effective Context Modeling? An Exploratory Study on
Semantic Parsing in Context [59.13515950353125]
文法に基づく意味解析を行い,その上に典型的な文脈モデリング手法を適用する。
我々は,2つの大きなクロスドメインデータセットに対して,13のコンテキストモデリング手法を評価した。
論文 参考訳(メタデータ) (2020-02-03T11:28:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。