論文の概要: LLM-Assisted Topic Reduction for BERTopic on Social Media Data
- arxiv url: http://arxiv.org/abs/2509.19365v1
- Date: Thu, 18 Sep 2025 20:59:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.515046
- Title: LLM-Assisted Topic Reduction for BERTopic on Social Media Data
- Title(参考訳): ソーシャルメディアデータを用いたBER TopicのLCM支援トピック削減
- Authors: Wannes Janssens, Matthias Bogaert, Dirk Van den Poel,
- Abstract要約: 本稿では,話題生成のためのBERTopicと話題短縮のための大規模言語モデルを組み合わせたフレームワークを提案する。
3つのTwitter/Xデータセットと4つの異なる言語モデルにまたがるアプローチを評価した。
- 参考スコア(独自算出の注目度): 0.22940141855172028
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The BERTopic framework leverages transformer embeddings and hierarchical clustering to extract latent topics from unstructured text corpora. While effective, it often struggles with social media data, which tends to be noisy and sparse, resulting in an excessive number of overlapping topics. Recent work explored the use of large language models for end-to-end topic modelling. However, these approaches typically require significant computational overhead, limiting their scalability in big data contexts. In this work, we propose a framework that combines BERTopic for topic generation with large language models for topic reduction. The method first generates an initial set of topics and constructs a representation for each. These representations are then provided as input to the language model, which iteratively identifies and merges semantically similar topics. We evaluate the approach across three Twitter/X datasets and four different language models. Our method outperforms the baseline approach in enhancing topic diversity and, in many cases, coherence, with some sensitivity to dataset characteristics and initial parameter selection.
- Abstract(参考訳): BERTopicフレームワークはトランスフォーマーの埋め込みと階層クラスタリングを利用して、非構造化テキストコーパスから潜在トピックを抽出する。
効果はあるものの、ソーシャルメディアのデータに悩まされがちで、ノイズが多くスパースな傾向があり、重複するトピックが過度に多い。
最近の研究は、エンド・ツー・エンドのトピック・モデリングにおける大規模言語モデルの使用について検討している。
しかし、これらのアプローチは一般的に大きな計算オーバーヘッドを必要とし、ビッグデータのコンテキストにおけるスケーラビリティを制限します。
本研究では,話題生成のためのBERTopicと話題短縮のための大規模言語モデルを組み合わせたフレームワークを提案する。
メソッドは最初にトピックの最初のセットを生成し、各トピックの表現を構成する。
これらの表現は言語モデルへの入力として提供され、意味論的に類似したトピックを反復的に識別し、マージする。
3つのTwitter/Xデータセットと4つの異なる言語モデルにまたがるアプローチを評価した。
提案手法は,トピックの多様性向上のためのベースラインアプローチよりも優れており,データセットの特徴や初期パラメータ選択に対してある程度の感度でコヒーレンスを実現している。
関連論文リスト
- CAST: Corpus-Aware Self-similarity Enhanced Topic modelling [16.562349140796115]
CAST: Corpus-Aware Self-similarity Enhanced Topic modelling, a novel topic modelling methodを紹介する。
機能的単語が候補話題語として振る舞うのを防ぐための効果的な指標として自己相似性を見出した。
提案手法は,生成したトピックの一貫性と多様性,およびノイズの多いデータを扱うトピックモデルの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-19T15:27:11Z) - Semantic-Driven Topic Modeling Using Transformer-Based Embeddings and Clustering Algorithms [6.349503549199403]
本研究は,トピック抽出プロセスのための革新的エンド・ツー・エンドのセマンティクス駆動トピックモデリング手法を提案する。
本モデルは,事前学習したトランスフォーマーベース言語モデルを用いて文書埋め込みを生成する。
ChatGPTや従来のトピックモデリングアルゴリズムと比較して、我々のモデルはより一貫性があり有意義なトピックを提供する。
論文 参考訳(メタデータ) (2024-09-30T18:15:31Z) - Explaining Datasets in Words: Statistical Models with Natural Language Parameters [66.69456696878842]
本稿では, クラスタリング, 時系列, 分類モデルなど, 自然言語の述語によってパラメータ化される統計モデル群を紹介する。
当社のフレームワークは、ユーザチャット対話の分類、時間の経過とともにどのように進化するかの特徴付け、一方の言語モデルが他方よりも優れているカテゴリを見つけることなど、幅広い問題に適用しています。
論文 参考訳(メタデータ) (2024-09-13T01:40:20Z) - Interactive Topic Models with Optimal Transport [75.26555710661908]
ラベル名監視型トピックモデリングのためのアプローチとして,EdTMを提案する。
EdTMは、LM/LLMベースのドキュメントトピック親和性を活用しながら、代入問題としてのトピックモデリングをモデル化する。
論文 参考訳(メタデータ) (2024-06-28T13:57:27Z) - Topic Discovery via Latent Space Clustering of Pretrained Language Model
Representations [35.74225306947918]
本研究では, PLM 埋め込みを基盤とした空間学習とクラスタリングの連携フレームワークを提案する。
提案モデルでは,トピック発見のためにPLMがもたらす強力な表現力と言語的特徴を効果的に活用する。
論文 参考訳(メタデータ) (2022-02-09T17:26:08Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Modeling Topical Relevance for Multi-Turn Dialogue Generation [61.87165077442267]
マルチターン対話におけるトピックドリフト問題に対処する新しいモデルSTAR-BTMを提案する。
バイラルトピックモデルは、トレーニングデータセット全体に基づいて事前トレーニングされ、各コンテキストのトピック表現に基づいてトピックレベルの注意重みが計算される。
中国における顧客サービスデータと英語Ubuntuの対話データの両方の実験結果から、STAR-BTMは最先端の手法を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2020-09-27T03:33:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。