論文の概要: ClusterFusion: Hybrid Clustering with Embedding Guidance and LLM Adaptation
- arxiv url: http://arxiv.org/abs/2512.04350v1
- Date: Thu, 04 Dec 2025 00:49:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:45.938284
- Title: ClusterFusion: Hybrid Clustering with Embedding Guidance and LLM Adaptation
- Title(参考訳): ClusterFusion: 埋め込みガイダンスとLLM適応を備えたハイブリッドクラスタリング
- Authors: Yiming Xu, Yuan Yuan, Vijay Viswanathan, Graham Neubig,
- Abstract要約: 大規模言語モデル(LLM)は、強いコンテキスト推論を提供するが、以前の作業では、組み込みを洗練したりクラスタ境界を調整するために、主に補助モジュールとして使用していた。
本稿では,LLMをクラスタリングコアとして扱うハイブリッドフレームワークであるClusterFusionを提案する。
3つの公開ベンチマークと2つの新しいドメイン固有のデータセットの実験は、ClusterFusionが標準的なタスクで最先端のパフォーマンスを達成することを示した。
- 参考スコア(独自算出の注目度): 52.794544682493814
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text clustering is a fundamental task in natural language processing, yet traditional clustering algorithms with pre-trained embeddings often struggle in domain-specific contexts without costly fine-tuning. Large language models (LLMs) provide strong contextual reasoning, yet prior work mainly uses them as auxiliary modules to refine embeddings or adjust cluster boundaries. We propose ClusterFusion, a hybrid framework that instead treats the LLM as the clustering core, guided by lightweight embedding methods. The framework proceeds in three stages: embedding-guided subset partition, LLM-driven topic summarization, and LLM-based topic assignment. This design enables direct incorporation of domain knowledge and user preferences, fully leveraging the contextual adaptability of LLMs. Experiments on three public benchmarks and two new domain-specific datasets demonstrate that ClusterFusion not only achieves state-of-the-art performance on standard tasks but also delivers substantial gains in specialized domains. To support future work, we release our newly constructed dataset and results on all benchmarks.
- Abstract(参考訳): テキストクラスタリングは自然言語処理の基本的なタスクであるが、事前訓練された埋め込みを伴う従来のクラスタリングアルゴリズムは、コストのかかる微調整なしにドメイン固有のコンテキストで苦労することが多い。
大規模言語モデル(LLM)は、強いコンテキスト推論を提供するが、以前の作業では、組み込みを洗練したりクラスタ境界を調整するために、主に補助モジュールとして使用していた。
本稿では,LLMをクラスタリングコアとして扱うハイブリッドフレームワークであるClusterFusionを提案する。
フレームワークは、埋め込み誘導サブセットパーティション、LLM駆動トピック要約、LLMベースのトピック割り当ての3段階で進行する。
この設計により、LLMの文脈適応性を完全に活用し、ドメイン知識とユーザの好みを直接組み込むことができる。
3つのパブリックベンチマークと2つの新しいドメイン特化データセットの実験は、ClusterFusionが標準的なタスクで最先端のパフォーマンスを達成するだけでなく、特別なドメインで大幅に向上することを示している。
今後の作業をサポートするため、新たに構築したデータセットと、すべてのベンチマークの結果をリリースします。
関連論文リスト
- ESMC: MLLM-Based Embedding Selection for Explainable Multiple Clustering [79.69917150582633]
MLLM(Multi-modal large language model)は、ユーザ主導のクラスタリングを実現するために利用することができる。
本手法はまず,MLLMのテキストトークンの隠蔽状態が対応する特徴と強く関連していることを明らかにする。
また、擬似ラベル学習を付加した軽量クラスタリングヘッドを採用し、クラスタリング精度を大幅に向上させた。
論文 参考訳(メタデータ) (2025-11-30T04:36:51Z) - LLM-MemCluster: Empowering Large Language Models with Dynamic Memory for Text Clustering [52.41664454251679]
大規模言語モデル(LLM)は、テキストクラスタリングを行う前例のない能力を提供することで、教師なしの学習を再構築している。
既存のメソッドは、しばしば外部モジュールを持つ複雑なパイプラインに依存し、真にエンドツーエンドのアプローチを犠牲にする。
LLM-MemClusterは,クラスタリングをLLMネイティブタスクとして再認識する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-11-19T13:22:08Z) - In-Context Clustering with Large Language Models [50.25868718329313]
ICCは、注意機構を通じて入力間の複雑な関係をキャプチャする。
事前学習したLLMは、テキスト符号化された数値データに対して、印象的なゼロショットクラスタリング機能を示す。
我々の研究は、文脈内学習を教師なしの設定に拡張し、クラスタリングにおけるLLMの有効性と柔軟性を示します。
論文 参考訳(メタデータ) (2025-10-09T17:07:55Z) - RecBase: Generative Foundation Model Pretraining for Zero-Shot Recommendation [78.01030342481246]
RecBaseは、レコメンデーション指向の目的によって事前訓練されたドメインに依存しない基礎モデルである。
アイテムを階層的な概念識別子にエンコードする統一されたアイテムトークンを導入します。
我々のモデルは、ゼロショットおよびクロスドメインレコメンデーションタスクにおいて、LLMのベースラインの最大7Bパラメータのパフォーマンスを一致または超過します。
論文 参考訳(メタデータ) (2025-09-03T08:33:43Z) - Text Clustering as Classification with LLMs [9.128151647718251]
本稿では,大規模言語モデルの文脈内学習機能を活用することで,テキストクラスタリングを分類タスクとして再編成するフレームワークを提案する。
LLMの高度な自然言語理解と一般化機能を活用することで,人間の介入を最小限に抑えた効果的なクラスタリングを実現する。
多様なデータセットに対する実験結果から,我々のフレームワークは,最先端の組込みクラスタリング技術に匹敵する,あるいは優れた性能を達成できることが示された。
論文 参考訳(メタデータ) (2024-09-30T16:57:34Z) - Context-Aware Clustering using Large Language Models [20.971691166166547]
CACTUS (Context-Aware ClusTering with aUgmented triplet losS) を提案する。
本稿では,大規模言語モデル(LLM)を用いたクラスタリングエンティティサブセットへの新たなアプローチを提案する。
論文 参考訳(メタデータ) (2024-05-02T03:50:31Z) - Large Language Models Enable Few-Shot Clustering [88.06276828752553]
大規模言語モデルは、クエリ効率が良く、数発のセミ教師付きテキストクラスタリングを可能にするために、専門家のガイダンスを増幅できることを示す。
最初の2つのステージにLSMを組み込むことで、クラスタの品質が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2023-07-02T09:17:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。