論文の概要: TopicGPT: A Prompt-based Topic Modeling Framework
- arxiv url: http://arxiv.org/abs/2311.01449v1
- Date: Thu, 2 Nov 2023 17:57:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-03 12:08:40.876354
- Title: TopicGPT: A Prompt-based Topic Modeling Framework
- Title(参考訳): TopicGPT: プロンプトベースのトピックモデリングフレームワーク
- Authors: Chau Minh Pham, Alexander Hoyle, Simeng Sun, Mohit Iyyer
- Abstract要約: TopicGPTは,大規模言語モデルを用いて潜在トピックを明らかにするプロンプトベースのフレームワークである。
競合する手法と比較して、人間の分類とよく一致したトピックを生成する。
そのトピックはより解釈可能で、自然言語ラベルと関連する自由形式の記述を含むトピックを好んで、曖昧な言葉の袋を除いた。
- 参考スコア(独自算出の注目度): 83.4192322629043
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Topic modeling is a well-established technique for exploring text corpora.
Conventional topic models (e.g., LDA) represent topics as bags of words that
often require "reading the tea leaves" to interpret; additionally, they offer
users minimal semantic control over topics. To tackle these issues, we
introduce TopicGPT, a prompt-based framework that uses large language models
(LLMs) to uncover latent topics within a provided text collection. TopicGPT
produces topics that align better with human categorizations compared to
competing methods: for example, it achieves a harmonic mean purity of 0.74
against human-annotated Wikipedia topics compared to 0.64 for the strongest
baseline. Its topics are also more interpretable, dispensing with ambiguous
bags of words in favor of topics with natural language labels and associated
free-form descriptions. Moreover, the framework is highly adaptable, allowing
users to specify constraints and modify topics without the need for model
retraining. TopicGPT can be further extended to hierarchical topical modeling,
enabling users to explore topics at various levels of granularity. By
streamlining access to high-quality and interpretable topics, TopicGPT
represents a compelling, human-centered approach to topic modeling.
- Abstract(参考訳): トピックモデリングはテキストコーパスを探索するための確立した手法である。
従来のトピックモデル(例えば、LDA)は、トピックを解釈するために「茶葉を読む」ことを必要とする単語の袋として表現する。
これらの問題に対処するため,提案するテキストコレクション内の潜在トピックを明らかにするために,大規模言語モデル(LLM)を用いたプロンプトベースのフレームワークであるTopicGPTを紹介した。
TopicGPTは、競合する手法と比較して人間の分類によく適合するトピックを生成している。例えば、最強のベースラインでは0.64に比べて、人間の注釈付きウィキペディアのトピックに対して0.74の平均純度を達成する。
そのトピックはより解釈可能で、自然言語ラベルと関連する自由形式の記述を含むトピックを好んで、曖昧な言葉の袋を除いた。
さらに、このフレームワークは高度に適応可能であり、モデルの再トレーニングを必要とせずに制約を指定したりトピックを変更することができる。
topicgptは階層的なトピックモデリングにも拡張でき、ユーザーは様々なレベルの粒度のトピックを探索できる。
高品質で解釈可能なトピックへのアクセスを合理化することによって、TopicGPTは、トピックモデリングに対する魅力的な人間中心のアプローチを示す。
関連論文リスト
- TopicAdapt- An Inter-Corpora Topics Adaptation Approach [27.450275637652418]
本稿では、関連するソースコーパスから関連するトピックを適応し、ソースコーパスに存在しないターゲットコーパスに新しいトピックを発見できるトピックモデルTopicAdaptを提案する。
多様なドメインからの複数のデータセットに対する実験は、最先端のトピックモデルに対して提案されたモデルの優位性を示している。
論文 参考訳(メタデータ) (2023-10-08T02:56:44Z) - Topic Taxonomy Expansion via Hierarchy-Aware Topic Phrase Generation [58.3921103230647]
TopicExpanというトピック分類拡張のための新しいフレームワークを提案する。
TopicExpanは、新しいトピックに属するトピック関連用語を直接生成する。
2つの実世界のテキストコーパスの実験結果から、TopicExpanは出力の質という点で他のベースライン手法よりも優れていた。
論文 参考訳(メタデータ) (2022-10-18T22:38:49Z) - HyperMiner: Topic Taxonomy Mining with Hyperbolic Embedding [54.52651110749165]
本稿では,単語や話題を表現するために,メタボリック埋め込みを導入した新しいフレームワークを提案する。
双曲空間のツリー様性により、下層のセマンティック階層はより解釈可能なトピックをマイニングするためによりうまく利用することができる。
論文 参考訳(メタデータ) (2022-10-16T02:54:17Z) - Knowledge-Aware Bayesian Deep Topic Model [50.58975785318575]
本稿では,事前知識を階層型トピックモデリングに組み込むベイズ生成モデルを提案する。
提案モデルでは,事前知識を効率的に統合し,階層的なトピック発見と文書表現の両面を改善する。
論文 参考訳(メタデータ) (2022-09-20T09:16:05Z) - Topic Discovery via Latent Space Clustering of Pretrained Language Model
Representations [35.74225306947918]
本研究では, PLM 埋め込みを基盤とした空間学習とクラスタリングの連携フレームワークを提案する。
提案モデルでは,トピック発見のためにPLMがもたらす強力な表現力と言語的特徴を効果的に活用する。
論文 参考訳(メタデータ) (2022-02-09T17:26:08Z) - Keyword Assisted Embedded Topic Model [1.9000421840914223]
確率論的トピックモデルは、文書内の単語がトピックと呼ばれる潜在分布の集合を通してどのように生成されるかを記述する。
近年,組込みトピックモデル (ETM) がLDAを拡張して,単語埋め込みにおける意味情報を利用して意味的にリッチなトピックを導出している。
本稿では,ユーザ知識を情報的トピックレベルの先行情報に組み込む機能を備えたKeyETM(Keyword Assisted Embedded Topic Model)を提案する。
論文 参考訳(メタデータ) (2021-11-22T07:27:17Z) - TopicNet: Semantic Graph-Guided Topic Discovery [51.71374479354178]
既存の階層的なトピックモデルでは、教師なしの方法でテキストコーパスから意味論的意味のあるトピックを抽出することができる。
TopicNetを階層的なトピックモデルとして導入し、学習に影響を与えるための帰納的バイアスとして、事前構造知識を注入する。
論文 参考訳(メタデータ) (2021-10-27T09:07:14Z) - Improving Neural Topic Models using Knowledge Distillation [84.66983329587073]
我々は,確率論的トピックモデルと事前学習されたトランスフォーマーの最適属性を組み合わせるために,知識蒸留を用いる。
我々のモジュラー手法は、どのニューラルトピックモデルでも簡単に適用でき、トピックの品質を向上させることができる。
論文 参考訳(メタデータ) (2020-10-05T22:49:16Z) - Conversational Structure Aware and Context Sensitive Topic Model for
Online Discussions [0.32228025627337864]
本稿では,コメントに対する応答数を定量化し,単語の発生頻度を拡大する「人気度」尺度を提案する。
我々は,人気度と推移度に基づいて対話型構造認識トピックモデル(CSATM)を構築し,トピックとコメントへの課題を推測する。
論文 参考訳(メタデータ) (2020-02-06T16:57:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。