論文の概要: A Large Language Model Guided Topic Refinement Mechanism for Short Text Modeling
- arxiv url: http://arxiv.org/abs/2403.17706v2
- Date: Sun, 16 Feb 2025 14:36:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:06:55.292227
- Title: A Large Language Model Guided Topic Refinement Mechanism for Short Text Modeling
- Title(参考訳): ショートテキストモデリングのための大規模言語モデルガイド付きトピックリファインメント機構
- Authors: Shuyu Chang, Rui Wang, Peng Ren, Qi Wang, Haiping Huang,
- Abstract要約: 既存のトピックモデルは、しばしば短いテキストの根底にあるセマンティックなパターンを正確に捉えるのに苦労する。
本稿では,トピックリファインメント(Topic Refinement)と呼ばれる新しいモデル非依存機構を提案する。
トピックリファインメントによりトピックの品質が向上し、トピック関連テキスト分類タスクのパフォーマンスが向上することを示す。
- 参考スコア(独自算出の注目度): 10.589126787499973
- License:
- Abstract: Modeling topics effectively in short texts, such as tweets and news snippets, is crucial to capturing rapidly evolving social trends. Existing topic models often struggle to accurately capture the underlying semantic patterns of short texts, primarily due to the sparse nature of such data. This nature of texts leads to an unavoidable lack of co-occurrence information, which hinders the coherence and granularity of mined topics. This paper introduces a novel model-agnostic mechanism, termed Topic Refinement, which leverages the advanced text comprehension capabilities of Large Language Models (LLMs) for short-text topic modeling. Unlike traditional methods, this post-processing mechanism enhances the quality of topics extracted by various topic modeling methods through prompt engineering. We guide LLMs in identifying semantically intruder words within the extracted topics and suggesting coherent alternatives to replace these words. This process mimics human-like identification, evaluation, and refinement of the extracted topics. Extensive experiments on four diverse datasets demonstrate that Topic Refinement boosts the topic quality and improves the performance in topic-related text classification tasks.
- Abstract(参考訳): ツイートやニューススニペットなどの短いテキストで効果的にトピックをモデリングすることは、急速に進化する社会トレンドを捉える上で非常に重要である。
既存のトピックモデルは、主にそのようなデータの粗い性質のために、短いテキストの基本的な意味パターンを正確に捉えるのに苦労することが多い。
このテキストの性質は、必然的に共起情報の欠如を招き、マイニングされたトピックの一貫性と粒度を妨げる。
本稿では,Large Language Models (LLMs) の高度なテキスト理解機能を利用した,トピック・リファインメント(Topic Refinement)と呼ばれる新しいモデル非依存機構を提案する。
従来の手法とは異なり、この後処理機構は、プロンプトエンジニアリングを通じて様々なトピックモデリング手法によって抽出されたトピックの品質を高める。
抽出された話題の中から意味論的侵入語を識別し,これらの単語を置き換えるための一貫性のある代替語を提案する。
このプロセスは、抽出されたトピックの人間的な識別、評価、洗練を模倣する。
4つの多様なデータセットに対する大規模な実験により、トピックリファインメントはトピックの品質を高め、トピック関連のテキスト分類タスクのパフォーマンスを向上させる。
関連論文リスト
- Enhancing Short-Text Topic Modeling with LLM-Driven Context Expansion and Prefix-Tuned VAEs [25.915607750636333]
本稿では,大規模言語モデル(LLM)を利用して,トピックモデリングを適用する前に,短いテキストをより詳細なシーケンスに拡張する手法を提案する。
提案手法は,データ空間が極端である実世界のデータセットに対する広範な実験により,短文のトピックモデリング性能を著しく向上させる。
論文 参考訳(メタデータ) (2024-10-04T01:28:56Z) - Prompting Large Language Models for Topic Modeling [10.31712610860913]
大規模言語モデル(LLM)の高度な言語理解を活用する新しいトピックモデリング手法であるPromptTopicを提案する。
個々の文書から文章レベルでトピックを抽出し、これらのトピックを事前定義された量に集約して凝縮し、最終的に様々な長さのテキストに対して一貫性のあるトピックを提供する。
PromptTopicを3つの非常に多様なデータセットの最先端のベースラインに対してベンチマークし、意味のあるトピックを発見する能力を確立しました。
論文 参考訳(メタデータ) (2023-12-15T11:15:05Z) - TopicGPT: A Prompt-based Topic Modeling Framework [77.72072691307811]
TopicGPTは,大規模言語モデルを用いてテキストコレクション内の潜在トピックを明らかにするプロンプトベースのフレームワークである。
競合する手法と比較して、人間の分類とよく一致したトピックを生成する。
そのトピックもまた解釈可能であり、自然言語ラベルと関連する自由形式の記述を含むトピックを好んで、曖昧な言葉の袋を除いた。
論文 参考訳(メタデータ) (2023-11-02T17:57:10Z) - Let the Pretrained Language Models "Imagine" for Short Texts Topic
Modeling [29.87929724277381]
短いテキストでは、共起情報は最小限であり、結果として文書表現の特徴が分散する。
既存のトピックモデル(確率的あるいは神経的)は、ほとんどの場合、一貫性のあるトピックを生成するためにパターンのマイニングに失敗します。
既存の事前学習言語モデル(PLM)を用いて、短いテキストを長いシーケンスに拡張する。
論文 参考訳(メタデータ) (2023-10-24T00:23:30Z) - InfoCTM: A Mutual Information Maximization Perspective of Cross-Lingual Topic Modeling [40.54497836775837]
言語間トピックモデルは、一致した潜在トピックを明らかにすることによって、言語間テキスト分析において一般的である。
既存のほとんどの手法は、低被覆辞書によるさらなる分析と性能低下を妨げる反復的なトピックの生成に悩まされている。
本稿では,相互情報を用いた多言語トピックモデリング(InfoCTM)を提案する。
論文 参考訳(メタデータ) (2023-04-07T08:49:43Z) - Knowledge-Aware Bayesian Deep Topic Model [50.58975785318575]
本稿では,事前知識を階層型トピックモデリングに組み込むベイズ生成モデルを提案する。
提案モデルでは,事前知識を効率的に統合し,階層的なトピック発見と文書表現の両面を改善する。
論文 参考訳(メタデータ) (2022-09-20T09:16:05Z) - Topic Discovery via Latent Space Clustering of Pretrained Language Model
Representations [35.74225306947918]
本研究では, PLM 埋め込みを基盤とした空間学習とクラスタリングの連携フレームワークを提案する。
提案モデルでは,トピック発見のためにPLMがもたらす強力な表現力と言語的特徴を効果的に活用する。
論文 参考訳(メタデータ) (2022-02-09T17:26:08Z) - Semantic Role Labeling Guided Multi-turn Dialogue ReWriter [63.07073750355096]
意味的役割ラベル付け(SRL)を用いて、誰が誰に何をしたかのコアセマンティック情報を強調することを提案する。
実験の結果、この情報は従来の最先端システムよりも優れていたRoBERTaベースのモデルを大幅に改善することが示された。
論文 参考訳(メタデータ) (2020-10-03T19:50:04Z) - Topic-Aware Multi-turn Dialogue Modeling [91.52820664879432]
本稿では,トピック認識発話を教師なしでセグメント化して抽出する,多元対話モデリングのための新しいソリューションを提案する。
トピック・アウェア・モデリングは、新たに提案されたトピック・アウェア・セグメンテーション・アルゴリズムとトピック・アウェア・デュアル・アテンション・マッチング(TADAM)ネットワークによって実現されている。
論文 参考訳(メタデータ) (2020-09-26T08:43:06Z) - Topic Adaptation and Prototype Encoding for Few-Shot Visual Storytelling [81.33107307509718]
トピック間一般化の能力をモデル化するためのトピック適応型ストーリーテラを提案する。
また,アトピー内導出能力のモデル化を目的とした符号化手法の試作も提案する。
実験結果から,トピック適応とプロトタイプ符号化構造が相互に利益をもたらすことが明らかとなった。
論文 参考訳(メタデータ) (2020-08-11T03:55:11Z) - How Far are We from Effective Context Modeling? An Exploratory Study on
Semantic Parsing in Context [59.13515950353125]
文法に基づく意味解析を行い,その上に典型的な文脈モデリング手法を適用する。
我々は,2つの大きなクロスドメインデータセットに対して,13のコンテキストモデリング手法を評価した。
論文 参考訳(メタデータ) (2020-02-03T11:28:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。