論文の概要: Improving Topic Modeling of Social Media Short Texts with Rephrasing: A Case Study of COVID-19 Related Tweets
- arxiv url: http://arxiv.org/abs/2510.18908v1
- Date: Tue, 21 Oct 2025 03:29:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:14.228686
- Title: Improving Topic Modeling of Social Media Short Texts with Rephrasing: A Case Study of COVID-19 Related Tweets
- Title(参考訳): 言葉によるソーシャルメディア短文のトピックモデリングの改善 : COVID-19関連つぶやきを事例として
- Authors: Wangjiaxuan Xin, Shuhua Yin, Shi Chen, Yaorong Ge,
- Abstract要約: ソーシャルメディアの短いテキストの短さ、非公式性、ノイズは、しばしば伝統的なトピックモデリングの有効性を阻害する。
EmphTM-Rephraseは,トピックモデリングに先立って,生のツイートをより標準化され形式化された言語に表現する,モデルに依存しないフレームワークである。
本研究は,公衆衛生関連ソーシャルメディア分析におけるトピックモデリングのモデル非依存的アプローチに寄与する。
- 参考スコア(独自算出の注目度): 2.073927793507761
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Social media platforms such as Twitter (now X) provide rich data for analyzing public discourse, especially during crises such as the COVID-19 pandemic. However, the brevity, informality, and noise of social media short texts often hinder the effectiveness of traditional topic modeling, producing incoherent or redundant topics that are often difficult to interpret. To address these challenges, we have developed \emph{TM-Rephrase}, a model-agnostic framework that leverages large language models (LLMs) to rephrase raw tweets into more standardized and formal language prior to topic modeling. Using a dataset of 25,027 COVID-19-related Twitter posts, we investigate the effects of two rephrasing strategies, general- and colloquial-to-formal-rephrasing, on multiple topic modeling methods. Results demonstrate that \emph{TM-Rephrase} improves three metrics measuring topic modeling performance (i.e., topic coherence, topic uniqueness, and topic diversity) while reducing topic redundancy of most topic modeling algorithms, with the colloquial-to-formal strategy yielding the greatest performance gains and especially for the Latent Dirichlet Allocation (LDA) algorithm. This study contributes to a model-agnostic approach to enhancing topic modeling in public health related social media analysis, with broad implications for improved understanding of public discourse in health crisis as well as other important domains.
- Abstract(参考訳): Twitter(現在のX)のようなソーシャルメディアプラットフォームは、特に新型コロナウイルス(COVID-19)のパンデミックのような危機時に、公衆の会話を分析するための豊富なデータを提供する。
しかし、ソーシャルメディアの短いテキストの簡潔さ、非公式性、ノイズは、しばしば伝統的なトピックモデリングの有効性を阻害し、しばしば解釈が難しい不整合または冗長なトピックを生み出す。
これらの課題に対処するため,我々は,大規模言語モデル(LLM)を利用したモデルに依存しないフレームワークであるemph{TM-Rephrase}を開発した。
25,027件のCOVID-19関連Twitter投稿のデータセットを用いて,複数のトピックモデリング手法に対する2つの言い換え戦略,一般語と口語-形式-言い換えの効果について検討した。
結果から,「emph{TM-Rephrase}」は,トピックモデリング性能(トピックコヒーレンス,トピックの独自性,トピックの多様性)を測定するとともに,ほとんどのトピックモデリングアルゴリズムのトピック冗長性を低減し,最大性能向上を達成し,特に遅延ディリクレ割当(LDA)アルゴリズムに有効であることが示された。
本研究は,公衆衛生関連ソーシャルメディア分析におけるトピックモデリングのモデル非依存的アプローチに寄与する。
関連論文リスト
- Enhancing Short-Text Topic Modeling with LLM-Driven Context Expansion and Prefix-Tuned VAEs [25.915607750636333]
本稿では,大規模言語モデル(LLM)を利用して,トピックモデリングを適用する前に,短いテキストをより詳細なシーケンスに拡張する手法を提案する。
提案手法は,データ空間が極端である実世界のデータセットに対する広範な実験により,短文のトピックモデリング性能を著しく向上させる。
論文 参考訳(メタデータ) (2024-10-04T01:28:56Z) - A Large Language Model Guided Topic Refinement Mechanism for Short Text Modeling [10.589126787499973]
既存のトピックモデルは、しばしば短いテキストの根底にあるセマンティックなパターンを正確に捉えるのに苦労する。
本稿では,トピックリファインメント(Topic Refinement)と呼ばれる新しいモデル非依存機構を提案する。
トピックリファインメントによりトピックの品質が向上し、トピック関連テキスト分類タスクのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-03-26T13:50:34Z) - How Well Do Text Embedding Models Understand Syntax? [50.440590035493074]
テキスト埋め込みモデルが幅広い構文的文脈にまたがって一般化する能力は、まだ解明されていない。
その結果,既存のテキスト埋め込みモデルは,これらの構文的理解課題に十分対応していないことが明らかとなった。
多様な構文シナリオにおけるテキスト埋め込みモデルの一般化能力を高めるための戦略を提案する。
論文 参考訳(メタデータ) (2023-11-14T08:51:00Z) - TopicGPT: A Prompt-based Topic Modeling Framework [77.72072691307811]
TopicGPTは,大規模言語モデルを用いてテキストコレクション内の潜在トピックを明らかにするプロンプトベースのフレームワークである。
競合する手法と比較して、人間の分類とよく一致したトピックを生成する。
そのトピックもまた解釈可能であり、自然言語ラベルと関連する自由形式の記述を含むトピックを好んで、曖昧な言葉の袋を除いた。
論文 参考訳(メタデータ) (2023-11-02T17:57:10Z) - Knowledge-Aware Bayesian Deep Topic Model [50.58975785318575]
本稿では,事前知識を階層型トピックモデリングに組み込むベイズ生成モデルを提案する。
提案モデルでは,事前知識を効率的に統合し,階層的なトピック発見と文書表現の両面を改善する。
論文 参考訳(メタデータ) (2022-09-20T09:16:05Z) - Topic modelling discourse dynamics in historical newspapers [2.978993130750125]
フィンランドの比較的大規模な歴史新聞に2種類のトピックモデル(LDAとDTM)を適用する。
ケーススタディは1854年から1917年にかけてフィンランドで発行された新聞や定期刊行物に焦点をあてるが、我々の手法はどんなダイアクロニックデータにも容易に適用できる。
論文 参考訳(メタデータ) (2020-11-20T14:51:07Z) - Topic-Aware Multi-turn Dialogue Modeling [91.52820664879432]
本稿では,トピック認識発話を教師なしでセグメント化して抽出する,多元対話モデリングのための新しいソリューションを提案する。
トピック・アウェア・モデリングは、新たに提案されたトピック・アウェア・セグメンテーション・アルゴリズムとトピック・アウェア・デュアル・アテンション・マッチング(TADAM)ネットワークによって実現されている。
論文 参考訳(メタデータ) (2020-09-26T08:43:06Z) - How Far are We from Effective Context Modeling? An Exploratory Study on
Semantic Parsing in Context [59.13515950353125]
文法に基づく意味解析を行い,その上に典型的な文脈モデリング手法を適用する。
我々は,2つの大きなクロスドメインデータセットに対して,13のコンテキストモデリング手法を評価した。
論文 参考訳(メタデータ) (2020-02-03T11:28:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。