論文の概要: Balancing Complexity and Informativeness in LLM-Based Clustering: Finding the Goldilocks Zone
- arxiv url: http://arxiv.org/abs/2504.04314v1
- Date: Sun, 06 Apr 2025 01:16:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:14:20.918610
- Title: Balancing Complexity and Informativeness in LLM-Based Clustering: Finding the Goldilocks Zone
- Title(参考訳): LLMクラスタリングにおける複雑度とインフォーマルネスのバランス:Goldilocksゾーンの探索
- Authors: Justin Miller, Tristram Alexander,
- Abstract要約: 本稿では,情報性と認知的単純さのトレードオフを定量化することにより,最適なクラスタ数について検討する。
大規模言語モデル(LLM)を用いてクラスタ名を生成し,その有効性を評価する。
語彙分類における言語効率を並列化する16-22クラスタの最適範囲を同定する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The challenge of clustering short text data lies in balancing informativeness with interpretability. Traditional evaluation metrics often overlook this trade-off. Inspired by linguistic principles of communicative efficiency, this paper investigates the optimal number of clusters by quantifying the trade-off between informativeness and cognitive simplicity. We use large language models (LLMs) to generate cluster names and evaluate their effectiveness through semantic density, information theory, and clustering accuracy. Our results show that Gaussian Mixture Model (GMM) clustering on embeddings generated by a LLM, increases semantic density compared to random assignment, effectively grouping similar bios. However, as clusters increase, interpretability declines, as measured by a generative LLM's ability to correctly assign bios based on cluster names. A logistic regression analysis confirms that classification accuracy depends on the semantic similarity between bios and their assigned cluster names, as well as their distinction from alternatives. These findings reveal a "Goldilocks zone" where clusters remain distinct yet interpretable. We identify an optimal range of 16-22 clusters, paralleling linguistic efficiency in lexical categorization. These insights inform both theoretical models and practical applications, guiding future research toward optimising cluster interpretability and usefulness.
- Abstract(参考訳): 短いテキストデータをクラスタリングすることの課題は、情報性と解釈可能性のバランスにある。
伝統的な評価指標は、しばしばこのトレードオフを見落とします。
本稿では,コミュニケーション効率の言語原理に着想を得て,情報性と認知的単純さのトレードオフを定量化し,最適なクラスタ数について検討する。
大規模言語モデル (LLM) を用いてクラスタ名を生成し, 意味密度, 情報理論, クラスタリング精度を用いてその有効性を評価する。
以上の結果から,LLMが生成した埋め込みにGaussian Mixture Model(GMM)をクラスタリングすることで,ランダム割当よりも意味密度を増大させ,類似したバイオを効果的にグループ化することを示した。
しかし、クラスタが増加するにつれて、ジェネレーティブLLMがクラスタ名に基づいてバイオを正しく割り当てる能力によって測定されるように、解釈可能性も低下する。
ロジスティック回帰分析により、分類精度は、生物とその割り当てられたクラスタ名間の意味的類似性、およびそれらの代替と区別に依存することを確認した。
これらの発見は、クラスターが区別されるが解釈可能な「ゴルディロックゾーン」であることを示している。
語彙分類における言語効率を並列化する16-22クラスタの最適範囲を同定する。
これらの知見は、クラスタの解釈可能性と有用性を最適化するための将来の研究を導く理論モデルと実践的応用の両方を示唆する。
関連論文リスト
- k-LLMmeans: Summaries as Centroids for Interpretable and Scalable LLM-Based Text Clustering [0.0]
k-LLMmeansは,LLMを用いてテキスト要約をクラスタセンタロイドとして生成する,k-meansクラスタリングアルゴリズムの新たな改良である。
この修正は、より高い解釈性を提供しながら、k-平均の性質を保っている。
本稿では,シーケンシャルテキストストリームにおけるクラスタセントロイドの解釈可能性を示すケーススタディを提案する。
論文 参考訳(メタデータ) (2025-02-12T19:50:22Z) - Interaction-Aware Gaussian Weighting for Clustered Federated Learning [58.92159838586751]
フェデレートラーニング(FL)は、プライバシを維持しながらモデルをトレーニングするための分散パラダイムとして登場した。
本稿では,新たなクラスタリングFL法であるFedGWC(Federated Gaussian Weighting Clustering)を提案する。
ベンチマークデータセットを用いた実験により,FedGWCはクラスタの品質と分類精度において,既存のFLアルゴリズムよりも優れていることがわかった。
論文 参考訳(メタデータ) (2025-02-05T16:33:36Z) - Dial-In LLM: Human-Aligned LLM-in-the-loop Intent Clustering for Customer Service Dialogues [18.744211667479995]
本稿では,微調整の有効性について検討する。
意味的コヒーレンス評価と意図クラスタ命名におけるLLM
また、アンも提案している。
LLM-ITLクラスタリングアルゴリズムは反復的な発見を容易にする。
コヒーレントな意図のクラスター
論文 参考訳(メタデータ) (2024-12-12T08:19:01Z) - Categorical Data Clustering via Value Order Estimated Distance Metric Learning [31.851890008893847]
本稿では,属性値間の順序関係がクラスタリング精度の決定的要因であることを示す。
本稿では,クラスタと注文の協調学習を可能にする新しい学習パラダイムを提案する。
このアルゴリズムは収束保証によりより優れたクラスタリング精度を実現する。
論文 参考訳(メタデータ) (2024-11-19T08:23:25Z) - Semantic Equitable Clustering: A Simple and Effective Strategy for Clustering Vision Tokens [57.37893387775829]
textbfSemantic textbfEquitable textbfClustering (SEC) という,高速かつバランスの取れたクラスタリング手法を導入する。
SECは、グローバルなセマンティックな関連性に基づいてトークンを効率的かつ直接的な方法でクラスタ化する。
視覚言語コネクタとして機能する汎用視覚バックボーンであるSECViTを提案する。
論文 参考訳(メタデータ) (2024-05-22T04:49:00Z) - Large Language Models Enable Few-Shot Clustering [88.06276828752553]
大規模言語モデルは、クエリ効率が良く、数発のセミ教師付きテキストクラスタリングを可能にするために、専門家のガイダンスを増幅できることを示す。
最初の2つのステージにLSMを組み込むことで、クラスタの品質が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2023-07-02T09:17:11Z) - Self-supervised Contrastive Attributed Graph Clustering [110.52694943592974]
我々は,自己教師型コントラストグラフクラスタリング(SCAGC)という,新たな属性グラフクラスタリングネットワークを提案する。
SCAGCでは,不正確なクラスタリングラベルを活用することで,ノード表現学習のための自己教師付きコントラスト損失を設計する。
OOSノードでは、SCAGCはクラスタリングラベルを直接計算できる。
論文 参考訳(メタデータ) (2021-10-15T03:25:28Z) - You Never Cluster Alone [150.94921340034688]
我々は、主流のコントラスト学習パラダイムをクラスタレベルのスキームに拡張し、同じクラスタに属するすべてのデータが統一された表現に寄与する。
分類変数の集合をクラスタ化代入信頼度として定義し、インスタンスレベルの学習トラックとクラスタレベルの学習トラックを関連付ける。
代入変数を再パラメータ化することで、TCCはエンドツーエンドでトレーニングされる。
論文 参考訳(メタデータ) (2021-06-03T14:59:59Z) - Deep Fair Discriminative Clustering [24.237000220172906]
2値および多状態保護状態変数(PSV)に対するグループレベルの公正性の一般概念について検討する。
本稿では,クラスタリング目標とフェアネス目標とを組み合わせて,フェアクラスタを適応的に学習する改良学習アルゴリズムを提案する。
本フレームワークは, フレキシブルフェアネス制約, マルチステートPSV, 予測クラスタリングなど, 新規なクラスタリングタスクに対して有望な結果を示す。
論文 参考訳(メタデータ) (2021-05-28T23:50:48Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。