論文の概要: Scalable Parameter-Light Spectral Method for Clustering Short Text Embeddings with a Cohesion-Based Evaluation Metric
- arxiv url: http://arxiv.org/abs/2511.19350v1
- Date: Mon, 24 Nov 2025 17:52:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.352376
- Title: Scalable Parameter-Light Spectral Method for Clustering Short Text Embeddings with a Cohesion-Based Evaluation Metric
- Title(参考訳): 凝集性評価指標を用いた短文埋め込みクラスタリングのためのスケーラブルパラメータ-光スペクトル法
- Authors: Nikita Neveditsin, Pawan Lingras, Vijay Mago,
- Abstract要約: 短いテキストの埋め込みをクラスタ化することは自然言語処理の基本的なタスクである。
本稿では,ラプラシア固有スペクトルの構造から直接クラスタ数を推定するスケーラブルなスペクトル法を提案する。
また、単純かつ解釈可能な評価指標である凝集比も提案する。
- 参考スコア(独自算出の注目度): 3.7723788828505125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Clustering short text embeddings is a foundational task in natural language processing, yet remains challenging due to the need to specify the number of clusters in advance. We introduce a scalable spectral method that estimates the number of clusters directly from the structure of the Laplacian eigenspectrum, constructed using cosine similarities and guided by an adaptive sampling strategy. This sampling approach enables our estimator to efficiently scale to large datasets without sacrificing reliability. To support intrinsic evaluation of cluster quality without ground-truth labels, we propose the Cohesion Ratio, a simple and interpretable evaluation metric that quantifies how much intra-cluster similarity exceeds the global similarity background. It has an information-theoretic motivation inspired by mutual information, and in our experiments it correlates closely with extrinsic measures such as normalized mutual information and homogeneity. Extensive experiments on six short-text datasets and four modern embedding models show that standard algorithms like K-Means and HAC, when guided by our estimator, significantly outperform popular parameter-light methods such as HDBSCAN, OPTICS, and Leiden. These results demonstrate the practical value of our spectral estimator and Cohesion Ratio for unsupervised organization and evaluation of short text data. Implementation of our estimator of k and Cohesion Ratio, along with code for reproducing the experiments, is available at https://anonymous.4open.science/r/towards_clustering-0C2E.
- Abstract(参考訳): 短いテキストの埋め込みをクラスタ化することは自然言語処理の基本的なタスクであるが、事前にクラスタ数を指定する必要があるため、依然として困難である。
本稿では,コサイン類似性を用いて構築され,適応サンプリング戦略によって誘導されるラプラシア固有スペクトルの構造から直接クラスタ数を推定するスケーラブルなスペクトル法を提案する。
このサンプリング手法により、推定器は信頼性を犠牲にすることなく、効率的に大規模なデータセットにスケールできる。
本研究では,クラスタ内類似度がグローバルな類似性背景をどの程度上回るかを定量化する簡易かつ解釈可能な評価指標であるCohesion Ratioを提案する。
相互情報に触発された情報理論のモチベーションを持ち,本実験では,正規化相互情報や同質性などの外因性尺度と密接に関連している。
6つの短文データセットと4つの現代的な埋め込みモデルに対する大規模な実験により、我々の推定器によって導かれたK-MeansやHACのような標準アルゴリズムは、HDBSCAN、OPTICS、Leidenといった一般的なパラメータライト法よりも大幅に優れていた。
これらの結果は、教師なし組織におけるスペクトル推定器と凝集比の実用的価値を示し、短いテキストデータの評価を行った。
k と Cohesion Ratio の推定器の実装は、実験を再現するコードとともに、https://anonymous.4open.science/r/towards_clustering-0C2E で利用可能である。
関連論文リスト
- Categorical Data Clustering via Value Order Estimated Distance Metric Learning [53.28598689867732]
本稿では,分類属性を直感的に表現する新しい順序距離計量学習手法を提案する。
新しい共同学習パラダイムが開発され、クラスタリングとオーダー距離メートル法学習の代替となる。
提案手法は分類および混合データセットのクラスタリング精度に優れる。
論文 参考訳(メタデータ) (2024-11-19T08:23:25Z) - Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - GCC: Generative Calibration Clustering [55.44944397168619]
本稿では,特徴学習と拡張をクラスタリングに組み込む新しいGCC法を提案する。
まず,実検体と実検体間の固有関係を識別する識別的特徴アライメント機構を開発する。
第二に、より信頼性の高いクラスタ割り当てを生成するための自己教師付きメトリック学習を設計する。
論文 参考訳(メタデータ) (2024-04-14T01:51:11Z) - Deep Embedding Clustering Driven by Sample Stability [16.53706617383543]
サンプル安定性(DECS)により駆動されるディープ埋め込みクラスタリングアルゴリズムを提案する。
具体的には、まずオートエンコーダで初期特徴空間を構築し、次にサンプル安定性に制約されたクラスタ指向の埋め込み機能を学ぶ。
5つのデータセットに対する実験結果から,提案手法は最先端のクラスタリング手法と比較して優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-01-29T09:19:49Z) - CEREAL: Few-Sample Clustering Evaluation [4.569028973407756]
限られたラベルでクラスタリング品質を推定する未解決の問題に焦点をあてる。
本稿では,少数のクラスタリング評価のための総合的なフレームワークCEREALを紹介する。
その結果,CEREALはサンプリング基準値と比較して絶対誤差曲線下での面積を最大57%削減できることがわかった。
論文 参考訳(メタデータ) (2022-09-30T19:52:41Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - Simple and Scalable Sparse k-means Clustering via Feature Ranking [14.839931533868176]
直感的で実装が簡単で,最先端のアルゴリズムと競合する,スパースk平均クラスタリングのための新しいフレームワークを提案する。
本手法は,属性のサブセットのクラスタリングや部分的に観測されたデータ設定など,タスク固有のアルゴリズムに容易に一般化できる。
論文 参考訳(メタデータ) (2020-02-20T02:41:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。