論文の概要: TopiCLEAR: Topic extraction by CLustering Embeddings with Adaptive dimensional Reduction
- arxiv url: http://arxiv.org/abs/2512.06694v1
- Date: Sun, 07 Dec 2025 07:01:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.474165
- Title: TopiCLEAR: Topic extraction by CLustering Embeddings with Adaptive dimensional Reduction
- Title(参考訳): TopiCLEAR:適応次元還元による埋め込みのクラスタリングによるトピック抽出
- Authors: Aoi Fujita, Taichi Yamamoto, Yuri Nakayama, Ryota Kobayashi,
- Abstract要約: TopiCLEAR: 適応次元還元による埋め込みのクラスタリングによるトピック抽出について述べる。
我々は、20News、AgNewsTitle、Reddit、TweetTopicの4つの多様なデータセットに対するアプローチを評価した。
本手法はより解釈可能なトピックを生成し,ソーシャルメディアデータやWebコンテンツ分析への応用の可能性を強調した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Rapid expansion of social media platforms such as X (formerly Twitter), Facebook, and Reddit has enabled large-scale analysis of public perceptions on diverse topics, including social issues, politics, natural disasters, and consumer sentiment. Topic modeling is a widely used approach for uncovering latent themes in text data, typically framed as an unsupervised classification task. However, traditional models, originally designed for longer and more formal documents, struggle with short social media posts due to limited co-occurrence statistics, fragmented semantics, inconsistent spelling, and informal language. To address these challenges, we propose a new method, TopiCLEAR: Topic extraction by CLustering Embeddings with Adaptive dimensional Reduction. Specifically, each text is embedded using Sentence-BERT (SBERT) and provisionally clustered using Gaussian Mixture Models (GMM). The clusters are then refined iteratively using a supervised projection based on linear discriminant analysis, followed by GMM-based clustering until convergence. Notably, our method operates directly on raw text, eliminating the need for preprocessing steps such as stop word removal. We evaluate our approach on four diverse datasets, 20News, AgNewsTitle, Reddit, and TweetTopic, each containing human-labeled topic information. Compared with seven baseline methods, including a recent SBERT-based method and a zero-shot generative AI method, our approach achieves the highest similarity to human-annotated topics, with significant improvements for both social media posts and online news articles. Additionally, qualitative analysis shows that our method produces more interpretable topics, highlighting its potential for applications in social media data and web content analytics.
- Abstract(参考訳): X(元Twitter)、Facebook、Redditといったソーシャルメディアプラットフォームの急速な拡大は、社会問題、政治、自然災害、消費者の感情など、さまざまなトピックに対する大衆の認識を大規模に分析することを可能にする。
トピックモデリングはテキストデータの潜在テーマを明らかにするために広く使われている手法であり、典型的には教師なしの分類タスクとしてフレーム化されている。
しかし、元々はより長い形式的な文書のために設計された伝統的なモデルは、限られた共起統計、断片化セマンティクス、一貫性のない綴り、非公式な言語のために、短いソーシャルメディア投稿に苦しむ。
これらの課題に対処するために,適応次元還元を用いた埋め込みのクラスタリングによるトピック抽出手法TopiCLEARを提案する。
具体的には、各テキストはSBERT(Sentence-BERT)を使用して埋め込み、Gaussian Mixture Models(GMM)を使用して予備的にクラスタ化される。
クラスタは、線形判別分析に基づいて教師付きプロジェクションを使用して反復的に洗練され、その後収束するまでGMMベースのクラスタリングが続く。
特に,本手法は原文を直接操作し,停止語除去などの前処理を不要にする。
我々は、20News、AgNewsTitle、Reddit、TweetTopicの4つの多様なデータセットに対するアプローチを評価する。
近年のSBERTベースの手法とゼロショット生成AI手法を含む7つのベースライン手法と比較して,本手法は,ソーシャルメディア投稿とオンラインニュース記事の両方において,人間の注釈付きトピックに最も近い類似性を達成している。
さらに, 質的分析により, より解釈可能なトピックが生成され, ソーシャルメディアデータやウェブコンテンツ分析に応用できる可能性が示唆された。
関連論文リスト
- LLM-Assisted Topic Reduction for BERTopic on Social Media Data [0.22940141855172028]
本稿では,話題生成のためのBERTopicと話題短縮のための大規模言語モデルを組み合わせたフレームワークを提案する。
3つのTwitter/Xデータセットと4つの異なる言語モデルにまたがるアプローチを評価した。
論文 参考訳(メタデータ) (2025-09-18T20:59:11Z) - An Enhanced Model-based Approach for Short Text Clustering [58.60681789677676]
Twitter、Google+、Facebookなどのソーシャルメディアの人気が高まり、短いテキストのクラスタリングがますます重要になっている。
既存の手法は、トピックモデルに基づくアプローチと深層表現学習に基づくアプローチの2つのパラダイムに大別することができる。
短文の空間性と高次元性を効果的に扱えるDirichlet Multinomial Mixture Model (GSDMM) のギブスサンプリングアルゴリズムを提案する。
さらなる改良を保証しているGSDMMのいくつかの側面に基づいて,さらなる性能向上を目的とした改良されたアプローチであるGSDMM+を提案する。
論文 参考訳(メタデータ) (2025-07-18T10:07:42Z) - HAMLET: Healthcare-focused Adaptive Multilingual Learning Embedding-based Topic Modeling [4.8342038441006805]
本稿では,言語間医療トピックモデリングのためのグラフ駆動アーキテクチャであるHAMLETを紹介する。
提案手法では,ニューラルエンハンスド・セマンティック・フュージョンを用いて,大規模言語モデルによって生成されたトピックの埋め込みを改良する。
実験は2つの医療データセットを用いて行われ、1つは英語、1つはフランス語で、そこから6つのデータセットが抽出された。
論文 参考訳(メタデータ) (2025-05-12T00:31:36Z) - Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - Improved Topic modeling in Twitter through Community Pooling [0.0]
Twitterの投稿は短いが、他のテキストよりも一貫性が低いことが多い。
著者が同じコミュニティに属しているツイートをグループ化する,トピックモデリングのための新しいプール方式を提案する。
その結果、我々のコミュニティポーリング手法は、2つの異種データセットの指標の大部分において、他の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-12-20T17:05:32Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。