論文の概要: Agentic Clustering: Controllable Text Taxonomies via Multi-Agent Refinement
- arxiv url: http://arxiv.org/abs/2606.01255v1
- Date: Sun, 31 May 2026 14:18:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.478934
- Title: Agentic Clustering: Controllable Text Taxonomies via Multi-Agent Refinement
- Title(参考訳): エージェントクラスタリング:マルチエージェントリファインメントによる制御可能なテキスト分類
- Authors: Simon Löwe, Emily Silcock,
- Abstract要約: 最近のテキストクラスタリング手法では、大きな言語モデルを使用して、コーパスからクラスタ分類を提案し、各テキストをそれに割り当てる。
オーケストレータLLMが各ステップで発見プロセスの状態を検査し、少数の特殊エージェントの1つをディスパッチするエージェント代替案を提案する。
7つの公開テキストクラスタリングベンチマークにおいて、この手法は最先端のパフォーマンスを達成し、ALIにおいて最強のLCMベースラインを最大32%上回った。
- 参考スコア(独自算出の注目度): 3.5066696167442775
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent text-clustering methods use large language models to propose a cluster taxonomy from a corpus and then assign each text to it. These pipelines are fundamentally programmatic: the sequence of LLM calls and the rules for stopping, merging, and splitting clusters are fixed in code in advance, so they generalise poorly across corpora of different structure and cannot easily incorporate user-supplied constraints such as a target cluster count or a clustering intent. We propose an agentic alternative in which an orchestrator LLM inspects the state of the discovery process at each step and dispatches one of a small set of specialised agents - proposer, synthesizer, auditor, investigator, and critic - adapting the pipeline to the corpus rather than executing a fixed one. On seven public text-clustering benchmarks the method achieves state-of-the-art performance, beating the strongest prior LLM baseline by up to 32% in ARI.
- Abstract(参考訳): 最近のテキストクラスタリング手法では、大きな言語モデルを使用して、コーパスからクラスタ分類を提案し、各テキストをそれに割り当てる。
LLMコールのシーケンスとクラスタの停止、マージ、分割のルールは、事前にコード内に固定されているため、異なる構造のコーパス間での一般化が不十分であり、ターゲットクラスタ数やクラスタ化インテントといったユーザが提供する制約を簡単に組み込むことはできない。
オーケストラLLMが各ステップで発見過程の状態を検査し、特定のエージェント(プロポーザル、シンセサイザー、オーディショナー、調査員、評論家)の1つを、固定されたエージェントではなく、パイプラインをコーパスに適応させるエージェント代替案を提案する。
7つの公開テキストクラスタリングベンチマークにおいて、この手法は最先端のパフォーマンスを達成し、ALIにおいて最強のLCMベースラインを最大32%上回った。
関連論文リスト
- Cluster-R1: Large Reasoning Models Are Instruction-following Clustering Agents [81.79110139097297]
汎用埋め込みモデルは意味的類似性を認識するのに優れているが、ユーザ命令で指定されたテキストの特徴を捉えることができない。
我々は、命令追従クラスタリングを生成タスクとして再編成し、大規模推論モデルを自律的なクラスタリングエージェントとして訓練する。
我々の推論駆動学習パイプラインは、LEMがハイレベルクラスタリング命令を解釈し、対応する潜在グループを推測することを可能にする。
論文 参考訳(メタデータ) (2026-03-06T10:15:54Z) - ClusterFusion: Hybrid Clustering with Embedding Guidance and LLM Adaptation [52.794544682493814]
大規模言語モデル(LLM)は、強いコンテキスト推論を提供するが、以前の作業では、組み込みを洗練したりクラスタ境界を調整するために、主に補助モジュールとして使用していた。
本稿では,LLMをクラスタリングコアとして扱うハイブリッドフレームワークであるClusterFusionを提案する。
3つの公開ベンチマークと2つの新しいドメイン固有のデータセットの実験は、ClusterFusionが標準的なタスクで最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-12-04T00:49:43Z) - ESMC: MLLM-Based Embedding Selection for Explainable Multiple Clustering [79.69917150582633]
MLLM(Multi-modal large language model)は、ユーザ主導のクラスタリングを実現するために利用することができる。
本手法はまず,MLLMのテキストトークンの隠蔽状態が対応する特徴と強く関連していることを明らかにする。
また、擬似ラベル学習を付加した軽量クラスタリングヘッドを採用し、クラスタリング精度を大幅に向上させた。
論文 参考訳(メタデータ) (2025-11-30T04:36:51Z) - LLM-MemCluster: Empowering Large Language Models with Dynamic Memory for Text Clustering [52.41664454251679]
大規模言語モデル(LLM)は、テキストクラスタリングを行う前例のない能力を提供することで、教師なしの学習を再構築している。
既存のメソッドは、しばしば外部モジュールを持つ複雑なパイプラインに依存し、真にエンドツーエンドのアプローチを犠牲にする。
LLM-MemClusterは,クラスタリングをLLMネイティブタスクとして再認識する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-11-19T13:22:08Z) - LLM-guided Hierarchical Retrieval [54.73080745446999]
LATTICEは階層的な検索フレームワークであり、LLMは対数探索の複雑さで大きなコーパスを推論し、ナビゲートすることができる。
LLM誘導探索における中心的な課題は、モデルの関連性判断がノイズが多く、文脈に依存し、階層性に気付かないことである。
我々のフレームワークは、推論集約型BRIGHTベンチマークで最先端のゼロショット性能を実現する。
論文 参考訳(メタデータ) (2025-10-15T07:05:17Z) - Cequel: Cost-Effective Querying of Large Language Models for Text Clustering [15.179854529085544]
テキストクラスタリングは、文書の集合を言語的特徴に基づく一貫性のあるグループに自動的に分割することを目的としている。
大規模言語モデル(LLM)の最近の進歩は、高品質な文脈適応型埋め込みを提供することにより、この分野を著しく改善している。
LLMクエリの限られた予算下で正確なテキストクラスタリングを実現するための費用効率のよいフレームワークであるCequelを提案する。
論文 参考訳(メタデータ) (2025-04-22T06:57:49Z) - Summaries as Centroids for Interpretable and Scalable Text Clustering [0.0]
我々は,k-NLPmeansとk-LLMmeansを紹介した。
重要なアイデアであるサマリ・アズ・センタロイドは、人間可読で監査可能なクラスタプロトタイプを作成しながら、埋め込み空間におけるk平均の割り当てを保持します。
論文 参考訳(メタデータ) (2025-02-12T19:50:22Z) - Text Clustering as Classification with LLMs [9.128151647718251]
本稿では,大規模言語モデルの文脈内学習機能を活用することで,テキストクラスタリングを分類タスクとして再編成するフレームワークを提案する。
LLMの高度な自然言語理解と一般化機能を活用することで,人間の介入を最小限に抑えた効果的なクラスタリングを実現する。
多様なデータセットに対する実験結果から,我々のフレームワークは,最先端の組込みクラスタリング技術に匹敵する,あるいは優れた性能を達成できることが示された。
論文 参考訳(メタデータ) (2024-09-30T16:57:34Z) - Large Language Models Enable Few-Shot Clustering [88.06276828752553]
大規模言語モデルは、クエリ効率が良く、数発のセミ教師付きテキストクラスタリングを可能にするために、専門家のガイダンスを増幅できることを示す。
最初の2つのステージにLSMを組み込むことで、クラスタの品質が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2023-07-02T09:17:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。