論文の概要: Topeax -- An Improved Clustering Topic Model with Density Peak Detection and Lexical-Semantic Term Importance
- arxiv url: http://arxiv.org/abs/2601.21465v1
- Date: Thu, 29 Jan 2026 09:41:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.708977
- Title: Topeax -- An Improved Clustering Topic Model with Density Peak Detection and Lexical-Semantic Term Importance
- Title(参考訳): Topeax -- 密度ピーク検出と語彙・意味項の重要性を考慮したクラスタリングトピックモデルの改良
- Authors: Márton Kardos,
- Abstract要約: 新しいアプローチである textbfTopeax を導入し、密度推定のピークからクラスタ数を検出する。
TopeaxはTop2VecやBERTopicよりもクラスタリカバリとクラスタ記述が優れていることが示されている。
- 参考スコア(独自算出の注目度): 2.6309691222303724
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text clustering is today the most popular paradigm for topic modelling, both in academia and industry. Despite clustering topic models' apparent success, we identify a number of issues in Top2Vec and BERTopic, which remain largely unsolved. Firstly, these approaches are unreliable at discovering natural clusters in corpora, due to extreme sensitivity to sample size and hyperparameters, the default values of which result in suboptimal behaviour. Secondly, when estimating term importance, BERTopic ignores the semantic distance of keywords to topic vectors, while Top2Vec ignores word counts in the corpus. This results in, on the one hand, less coherent topics due to the presence of stop words and junk words, and lack of variety and trust on the other. In this paper, I introduce a new approach, \textbf{Topeax}, which discovers the number of clusters from peaks in density estimates, and combines lexical and semantic indices of term importance to gain high-quality topic keywords. Topeax is demonstrated to be better at both cluster recovery and cluster description than Top2Vec and BERTopic, while also exhibiting less erratic behaviour in response to changing sample size and hyperparameters.
- Abstract(参考訳): テキストクラスタリングは現在、学術と産業の両方において、トピックモデリングの最も一般的なパラダイムです。
クラスタリングトピックモデルの明らかな成功にもかかわらず、Top2VecとBERTopicの多くの問題は未解決のままである。
第一に、これらのアプローチは、サンプルサイズとハイパーパラメータに対する極度な感度のため、コーパス内の自然クラスターを発見するには信頼性が低い。
第二に、用語の重要性を推定する場合、BERTopicはキーワードとトピックベクトルのセマンティックな距離を無視するが、Top2Vecはコーパス内の単語数を無視する。
この結果、停止語やジャンク語の存在や多様性の欠如、他方に対する信頼の欠如などにより、一貫性の低いトピックが生まれる。
本稿では、密度推定におけるピークからのクラスタ数を発見し、項の重要性の語彙と意味の指標を組み合わせて高品質なトピックキーワードを得る、新しいアプローチである「textbf{Topeax}」を紹介する。
TopeaxはTop2VecやBERTopicよりもクラスタリカバリやクラスタ記述に優れており、サンプルサイズやハイパーパラメータの変化に応じて不規則な振る舞いは少ない。
関連論文リスト
- Bridging the Semantic Gap for Categorical Data Clustering via Large Language Models [64.58262227709842]
ARISE(Attention-weighted Representation with Integrated Semantic Embeddings)が紹介される。
正確なクラスタリングのためにカテゴリデータのメトリック空間を補完するセマンティックアウェア表現を構築する。
8つのベンチマークデータセットの実験では、7つの代表的なデータセットよりも一貫した改善が示されている。
論文 参考訳(メタデータ) (2026-01-03T11:37:46Z) - Should Top-Down Clustering Affect Boundaries in Unsupervised Word Discovery? [22.044042563954378]
ラベルのない音声を単語のような単位に分割し、それらをクラスタ化して語彙を生成するという問題について検討する。
トップダウン手法は、クラスタ化された単語からの情報を組み込んで境界選択を知らせる。
ES-KMeansによるトップダウンの影響は有益であることを示すが、多くの場合、単純なボトムアップ手法も同様に機能する。
論文 参考訳(メタデータ) (2025-07-25T12:19:16Z) - An Enhanced Model-based Approach for Short Text Clustering [58.60681789677676]
Twitter、Google+、Facebookなどのソーシャルメディアの人気が高まり、短いテキストのクラスタリングがますます重要になっている。
既存の手法は、トピックモデルに基づくアプローチと深層表現学習に基づくアプローチの2つのパラダイムに大別することができる。
短文の空間性と高次元性を効果的に扱えるDirichlet Multinomial Mixture Model (GSDMM) のギブスサンプリングアルゴリズムを提案する。
さらなる改良を保証しているGSDMMのいくつかの側面に基づいて,さらなる性能向上を目的とした改良されたアプローチであるGSDMM+を提案する。
論文 参考訳(メタデータ) (2025-07-18T10:07:42Z) - KULCQ: An Unsupervised Keyword-based Utterance Level Clustering Quality Metric [0.5671051073036456]
キーワードベースのUtterance Level Clustering Quality (KULCQ)は、キーワード分析を利用してクラスタリングの品質を評価する教師なしメトリクスである。
その結果、KULCQは、幾何学的クラスタリング原理との整合性を保ちながら、会話データのセマンティックな関係をよりよく捉えていることがわかった。
論文 参考訳(メタデータ) (2024-11-15T00:21:02Z) - ABCDE: Application-Based Cluster Diff Evals [49.1574468325115]
それは実用性を目指しており、アイテムはアプリケーション固有の重要な値を持つことができ、クラスタリングがどちらが優れているかを判断するときに人間の判断を使うのは粗悪であり、アイテムの任意のスライスのためのメトリクスを報告できる。
クラスタリング品質の差分を測定するアプローチは、高価な地平を前もって構築し、それに関して各クラスタリングを評価する代わりに、ABCDEはクラスタリング間の実際の差分に基づいて、判定のための質問をサンプリングする。
論文 参考訳(メタデータ) (2024-07-31T08:29:35Z) - Quantization of Large Language Models with an Overdetermined Basis [73.79368761182998]
本稿では,嘉心表現の原理に基づくデータ量子化アルゴリズムを提案する。
以上の結果から, カシ量子化はモデル性能の競争力や優れた品質を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-04-15T12:38:46Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - Learning to Cluster Faces via Confidence and Connectivity Estimation [136.5291151775236]
重複する部分グラフを多数必要とせず,完全に学習可能なクラスタリングフレームワークを提案する。
提案手法はクラスタリングの精度を大幅に向上させ,その上で訓練した認識モデルの性能を向上させるが,既存の教師付き手法に比べて桁違いに効率的である。
論文 参考訳(メタデータ) (2020-04-01T13:39:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。