論文の概要: Optimized Algorithms for Text Clustering with LLM-Generated Constraints
- arxiv url: http://arxiv.org/abs/2601.11118v1
- Date: Fri, 16 Jan 2026 09:26:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.431257
- Title: Optimized Algorithms for Text Clustering with LLM-Generated Constraints
- Title(参考訳): LLM制約によるテキストクラスタリングの最適化アルゴリズム
- Authors: Chaoqi Jia, Weihong Wu, Longkun Guo, Zhigang Lu, Chao Chen, Kok-Leong Ong,
- Abstract要約: 多くの研究者がバックグラウンド知識を取り入れており、一般的にはクラスタリングプロセスのガイドとして、マスターリンクとノーリンクの制約という形で採用している。
近年の大規模言語モデル(LLM)の出現により、クラスタリングの品質向上への関心が高まっている。
本稿では,従来の制約ではなく,制約セットを生成することによって資源消費を削減する制約生成手法を提案する。
- 参考スコア(独自算出の注目度): 9.075693512125042
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Clustering is a fundamental tool that has garnered significant interest across a wide range of applications including text analysis. To improve clustering accuracy, many researchers have incorporated background knowledge, typically in the form of must-link and cannot-link constraints, to guide the clustering process. With the recent advent of large language models (LLMs), there is growing interest in improving clustering quality through LLM-based automatic constraint generation. In this paper, we propose a novel constraint-generation approach that reduces resource consumption by generating constraint sets rather than using traditional pairwise constraints. This approach improves both query efficiency and constraint accuracy compared to state-of-the-art methods. We further introduce a constrained clustering algorithm tailored to the characteristics of LLM-generated constraints. Our method incorporates a confidence threshold and a penalty mechanism to address potentially inaccurate constraints. We evaluate our approach on five text datasets, considering both the cost of constraint generation and the overall clustering performance. The results show that our method achieves clustering accuracy comparable to the state-of-the-art algorithms while reducing the number of LLM queries by more than 20 times.
- Abstract(参考訳): クラスタリングは、テキスト分析を含む幅広いアプリケーションにおいて大きな関心を集めている基本的なツールである。
クラスタリングの精度を向上させるために、多くの研究者はバックグラウンド知識(典型的には必須リンクと無リンク制約という形で)を取り入れてクラスタリングプロセスのガイドを行っている。
近年,大規模言語モデル (LLM) の出現に伴い,LLMに基づく自動制約生成によるクラスタリング品質向上への関心が高まっている。
本稿では,従来の制約ではなく,制約セットを生成することによって資源消費を削減する制約生成手法を提案する。
このアプローチは、最先端手法と比較してクエリ効率と制約精度の両方を改善する。
さらに,LLM生成制約の特性に合わせて,制約付きクラスタリングアルゴリズムを導入する。
本手法は,潜在的不正確な制約に対処するための信頼しきい値とペナルティ機構を組み込んだものである。
我々は,制約生成コストとクラスタリング性能の両方を考慮して,5つのテキストデータセットに対するアプローチを評価した。
提案手法は,LLMクエリの数を20倍以上に削減しつつ,最先端のアルゴリズムに匹敵するクラスタリング精度を実現する。
関連論文リスト
- LLM-MemCluster: Empowering Large Language Models with Dynamic Memory for Text Clustering [52.41664454251679]
大規模言語モデル(LLM)は、テキストクラスタリングを行う前例のない能力を提供することで、教師なしの学習を再構築している。
既存のメソッドは、しばしば外部モジュールを持つ複雑なパイプラインに依存し、真にエンドツーエンドのアプローチを犠牲にする。
LLM-MemClusterは,クラスタリングをLLMネイティブタスクとして再認識する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-11-19T13:22:08Z) - In-Context Clustering with Large Language Models [50.25868718329313]
ICCは、注意機構を通じて入力間の複雑な関係をキャプチャする。
事前学習したLLMは、テキスト符号化された数値データに対して、印象的なゼロショットクラスタリング機能を示す。
我々の研究は、文脈内学習を教師なしの設定に拡張し、クラスタリングにおけるLLMの有効性と柔軟性を示します。
論文 参考訳(メタデータ) (2025-10-09T17:07:55Z) - Cequel: Cost-Effective Querying of Large Language Models for Text Clustering [15.179854529085544]
テキストクラスタリングは、文書の集合を言語的特徴に基づく一貫性のあるグループに自動的に分割することを目的としている。
大規模言語モデル(LLM)の最近の進歩は、高品質な文脈適応型埋め込みを提供することにより、この分野を著しく改善している。
LLMクエリの限られた予算下で正確なテキストクラスタリングを実現するための費用効率のよいフレームワークであるCequelを提案する。
論文 参考訳(メタデータ) (2025-04-22T06:57:49Z) - Revisiting Self-Supervised Heterogeneous Graph Learning from Spectral Clustering Perspective [52.662463893268225]
自己教師付きヘテロジニアスグラフ学習(SHGL)は様々なシナリオにおいて有望な可能性を示している。
既存のSHGLメソッドには2つの大きな制限がある。
ランクと二重整合性制約によって強化された新しいフレームワークを導入する。
論文 参考訳(メタデータ) (2024-12-01T09:33:20Z) - HAFLQ: Heterogeneous Adaptive Federated LoRA Fine-tuned LLM with Quantization [55.972018549438964]
LLM(Federated Fine-tuning of Pre-trained Large Language Models)は、さまざまなデータセットにまたがるタスク固有の適応を可能にすると同時に、プライバシの保護を可能にする。
本研究では, HAFLQ (Heterogeneous Adaptive Federated Low-Rank Adaptation Fine-tuned LLM with Quantization) を提案する。
テキスト分類タスクの実験結果から,HAFLQはメモリ使用量を31%削減し,通信コストを49%削減し,精度を50%向上し,ベースライン法よりも高速な収束を実現している。
論文 参考訳(メタデータ) (2024-11-10T19:59:54Z) - Text Clustering as Classification with LLMs [9.128151647718251]
本稿では,大規模言語モデルの文脈内学習機能を活用することで,テキストクラスタリングを分類タスクとして再編成するフレームワークを提案する。
LLMの高度な自然言語理解と一般化機能を活用することで,人間の介入を最小限に抑えた効果的なクラスタリングを実現する。
多様なデータセットに対する実験結果から,我々のフレームワークは,最先端の組込みクラスタリング技術に匹敵する,あるいは優れた性能を達成できることが示された。
論文 参考訳(メタデータ) (2024-09-30T16:57:34Z) - Context-Aware Clustering using Large Language Models [20.971691166166547]
CACTUS (Context-Aware ClusTering with aUgmented triplet losS) を提案する。
本稿では,大規模言語モデル(LLM)を用いたクラスタリングエンティティサブセットへの新たなアプローチを提案する。
論文 参考訳(メタデータ) (2024-05-02T03:50:31Z) - Large Language Models Enable Few-Shot Clustering [88.06276828752553]
大規模言語モデルは、クエリ効率が良く、数発のセミ教師付きテキストクラスタリングを可能にするために、専門家のガイダンスを増幅できることを示す。
最初の2つのステージにLSMを組み込むことで、クラスタの品質が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2023-07-02T09:17:11Z) - An Exact Algorithm for Semi-supervised Minimum Sum-of-Squares Clustering [0.5801044612920815]
半教師付きMSSCのための分岐結合アルゴリズムを提案する。
背景知識はペアワイズ・マスタリンクと結びつかない制約として組み込まれている。
提案したグローバル最適化アルゴリズムは,実世界のインスタンスを最大800個のデータポイントまで効率的に解決する。
論文 参考訳(メタデータ) (2021-11-30T17:08:53Z) - Meta Clustering Learning for Large-scale Unsupervised Person
Re-identification [124.54749810371986]
メタクラスタリング学習(MCL)と呼ばれる「大規模タスクのための小さなデータ」パラダイムを提案する。
MCLは、第1フェーズのトレーニングのためにコンピューティングを節約するためにクラスタリングを介して、未ラベルデータのサブセットを擬似ラベル付けするのみである。
提案手法は計算コストを大幅に削減すると同時に,従来よりも優れた性能を実現している。
論文 参考訳(メタデータ) (2021-11-19T04:10:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。