論文の概要: Cost-Effective Text Clustering with Large Language Models
- arxiv url: http://arxiv.org/abs/2504.15640v1
- Date: Tue, 22 Apr 2025 06:57:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 21:55:36.818769
- Title: Cost-Effective Text Clustering with Large Language Models
- Title(参考訳): 大規模言語モデルを用いたコスト効果テキストクラスタリング
- Authors: Hongtao Wang, Taiyan Zhang, Renchi Yang, Jianliang Xu,
- Abstract要約: 本稿では,テキストクラスタリングの精度向上のために,大規模言語モデルからのフィードバックを取り入れたコスト効率の高いフレームワークTECLを提案する。
内部では、TECLはEdgeLLMまたはTriangleLLMを採用して、テキストペアの must-link/cannot-link 制約を構築しています。
複数のベンチマークデータセットに対する実験により、TECLは教師なしテキストクラスタリングにおいて既存のソリューションよりも一貫して、かなり優れています。
- 参考スコア(独自算出の注目度): 15.179854529085544
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text clustering aims to automatically partition a collection of text documents into distinct clusters based on linguistic features. In the literature, this task is usually framed as metric clustering based on text embeddings from pre-trained encoders or a graph clustering problem upon pairwise similarities from an oracle, e.g., a large ML model. Recently, large language models (LLMs) bring significant advancement in this field by offering contextualized text embeddings and highly accurate similarity scores, but meanwhile, present grand challenges to cope with substantial computational and/or financial overhead caused by numerous API-based queries or inference calls to the models. In response, this paper proposes TECL, a cost-effective framework that taps into the feedback from LLMs for accurate text clustering within a limited budget of queries to LLMs. Under the hood, TECL adopts our EdgeLLM or TriangleLLM to construct must-link/cannot-link constraints for text pairs, and further leverages such constraints as supervision signals input to our weighted constrained clustering approach to generate clusters. Particularly, EdgeLLM (resp. TriangleLLM) enables the identification of informative text pairs (resp. triplets) for querying LLMs via well-thought-out greedy algorithms and accurate extraction of pairwise constraints through carefully-crafted prompting techniques. Our experiments on multiple benchmark datasets exhibit that TECL consistently and considerably outperforms existing solutions in unsupervised text clustering under the same query cost for LLMs.
- Abstract(参考訳): テキストクラスタリングは、テキスト文書の集合を言語的特徴に基づいて個別のクラスタに自動的に分割することを目的としている。
文献では、このタスクは通常、事前訓練されたエンコーダからのテキスト埋め込みに基づくメートル法クラスタリングや、オラクル、例えば大規模なMLモデルからのペアの類似性に基づくグラフクラスタリング問題としてフレーム化される。
近年,大規模言語モデル (LLMs) は,文脈化されたテキスト埋め込みと高精度な類似度スコアを提供することによって,この分野において大きな進歩をもたらしている。
本報告では, TECLを提案する。TECLは, LLMからのフィードバックを利用して, LLMの限られた予算内で, 正確なテキストクラスタリングを行う。
内部的には、TECLはEdgeLLMまたはTriangleLLMを採用して、テキストペアに対するマスタリンク/カノットリンクの制約を構築し、さらにクラスタを生成するために、重み付けされたクラスタリングアプローチに入力される監視信号のような制約を活用しています。
特に、EdgeLLM (resp. TriangleLLM) は、よく考え抜かれた欲求アルゴリズムと、慎重に構築されたプロンプト技術により、ペアの制約を正確に抽出することで、LSMに問い合わせる情報的テキストペア(resp. triangleLLM)を識別することができる。
複数のベンチマークデータセットに対する実験により、TECLはLLMと同じクエリコストで教師なしテキストクラスタリングにおいて、既存のソリューションよりも一貫して、かなり優れています。
関連論文リスト
- Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究
LLM生成テキスト上に既存のテキスト埋め込みモデルを微調整することで、優れた分類精度が得られることが判明した。
我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文 参考訳(メタデータ) (2025-02-17T18:59:02Z) - k-LLMmeans: Summaries as Centroids for Interpretable and Scalable LLM-Based Text Clustering [0.0]
k-LLMmeansは,LLMを用いてテキスト要約をクラスタセンタロイドとして生成する,k-meansクラスタリングアルゴリズムの新たな改良である。
この修正は、より高い解釈性を提供しながら、k-平均の性質を保っている。
本稿では,シーケンシャルテキストストリームにおけるクラスタセントロイドの解釈可能性を示すケーススタディを提案する。
論文 参考訳(メタデータ) (2025-02-12T19:50:22Z) - TableTime: Reformulating Time Series Classification as Training-Free Table Understanding with Large Language Models [14.880203496664963]
大規模言語モデル (LLM) は多変量時系列分類において有効であることを示した。
LLM は LLM の潜在空間内の時系列の埋め込みを直接コードし、LLM の意味空間と一致させる。
MTSCを表理解タスクとして再編成するテーブルタイムを提案する。
論文 参考訳(メタデータ) (2024-11-24T07:02:32Z) - LLM$\times$MapReduce: Simplified Long-Sequence Processing using Large Language Models [73.13933847198395]
本稿では,文書理解を包括的に行うための分割・対数戦略を利用して,長文処理のための学習自由フレームワークを提案する。
提案された LLM$times$MapReduce フレームワークは、ドキュメント全体を LLM が読み取るためにいくつかのチャンクに分割し、中間回答を集約して最終的な出力を生成する。
論文 参考訳(メタデータ) (2024-10-12T03:13:44Z) - Text Clustering as Classification with LLMs [6.030435811868953]
本研究では,大規模言語モデル(LLM)の文脈内学習能力を効果的に活用する,テキストクラスタリングのための新しいフレームワークを提案する。
そこで本研究では,テキストクラスタリングをLLMによる分類タスクに変換することを提案する。
我々のフレームワークは、最先端のクラスタリング手法に匹敵する、あるいは優れた性能を達成できることが実験的に証明されている。
論文 参考訳(メタデータ) (2024-09-30T16:57:34Z) - TACT: Advancing Complex Aggregative Reasoning with Information Extraction Tools [51.576974932743596]
大規模言語モデル(LLM)は、テキスト間の情報の集約を必要とするクエリではよく機能しないことが多い。
TACTには、1つ以上のテキストに散らばる縫合情報を要求する難しい命令が含まれている。
既存のテキストと関連するテーブルのデータセットを活用することで、このデータセットを構築します。
現代のLLMはいずれも,このデータセットでは性能が悪く,精度が38%以下であることが実証された。
論文 参考訳(メタデータ) (2024-06-05T20:32:56Z) - Human-interpretable clustering of short-text using large language models [0.0]
この研究は、大規模言語モデル(LLM)が従来のクラスタリングアプローチの限界を克服できることを示している。
結果として得られたクラスターはより独特で、より人間的に解釈可能である。
論文 参考訳(メタデータ) (2024-05-12T12:55:40Z) - Context-Aware Clustering using Large Language Models [20.971691166166547]
CACTUS (Context-Aware ClusTering with aUgmented triplet losS) を提案する。
本稿では,大規模言語モデル(LLM)を用いたクラスタリングエンティティサブセットへの新たなアプローチを提案する。
論文 参考訳(メタデータ) (2024-05-02T03:50:31Z) - Text Clustering with Large Language Model Embeddings [0.0]
テキストクラスタリングの有効性は、テキスト埋め込みとクラスタリングアルゴリズムの選択に大きく依存する。
大規模言語モデル(LLM)の最近の進歩は、このタスクを強化する可能性を秘めている。
LLM埋め込みは構造化言語の微妙さを捉えるのに優れていることを示す。
論文 参考訳(メタデータ) (2024-03-22T11:08:48Z) - FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models [79.62191017182518]
FollowBenchは、大規模言語モデルのベンチマークに続くきめ細かい制約のベンチマークである。
本稿では,初期命令に段階的に1つの制約を付加するマルチレベル機構を提案する。
FollowBench上での13のLLMの評価により,LLMの弱さと今後の研究への道のりを示す。
論文 参考訳(メタデータ) (2023-10-31T12:32:38Z) - Evaluating, Understanding, and Improving Constrained Text Generation for Large Language Models [49.74036826946397]
本研究では,大言語モデル(LLM)の制約付きテキスト生成について検討する。
本研究は主に,制約を語彙型,構造型,関係型に分類するオープンソース LLM に重点を置いている。
その結果、LLMの能力と不足を照らし、制約を取り入れ、制約付きテキスト生成における将来の発展に対する洞察を提供する。
論文 参考訳(メタデータ) (2023-10-25T03:58:49Z) - Large Language Models Enable Few-Shot Clustering [88.06276828752553]
大規模言語モデルは、クエリ効率が良く、数発のセミ教師付きテキストクラスタリングを可能にするために、専門家のガイダンスを増幅できることを示す。
最初の2つのステージにLSMを組み込むことで、クラスタの品質が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2023-07-02T09:17:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。