論文の概要: Cequel: Cost-Effective Querying of Large Language Models for Text Clustering
- arxiv url: http://arxiv.org/abs/2504.15640v2
- Date: Thu, 21 Aug 2025 06:36:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:45.951836
- Title: Cequel: Cost-Effective Querying of Large Language Models for Text Clustering
- Title(参考訳): Cequel: テキストクラスタリングのための大規模言語モデルのコスト効果クエリ
- Authors: Hongtao Wang, Taiyan Zhang, Renchi Yang, Jianliang Xu,
- Abstract要約: テキストクラスタリングは、文書の集合を言語的特徴に基づく一貫性のあるグループに自動的に分割することを目的としている。
大規模言語モデル(LLM)の最近の進歩は、高品質な文脈適応型埋め込みを提供することにより、この分野を著しく改善している。
LLMクエリの限られた予算下で正確なテキストクラスタリングを実現するための費用効率のよいフレームワークであるCequelを提案する。
- 参考スコア(独自算出の注目度): 15.179854529085544
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text clustering aims to automatically partition a collection of documents into coherent groups based on their linguistic features. In the literature, this task is formulated either as metric clustering over pre-trained text embeddings or as graph clustering based on pairwise similarities derived from an oracle, e.g., a large machine learning model. Recent advances in large language models (LLMs) have significantly improved this field by providing high-quality contextualized embeddings and accurate semantic similarity estimates. However, leveraging LLMs at scale introduces substantial computational and financial costs due to the large number of required API queries or inference calls. To address this issue, we propose Cequel, a cost-effective framework that achieves accurate text clustering under a limited budget of LLM queries. At its core, Cequel constructs must-link and cannot-link constraints by selectively querying LLMs on informative text pairs or triplets, identified via our proposed algorithms, EdgeLLM and TriangleLLM. These constraints are then utilized in a weighted constrained clustering algorithm to form high-quality clusters. Specifically, EdgeLLM and TriangleLLM employ carefully designed greedy selection strategies and prompting techniques to identify and extract informative constraints efficiently. Experiments on multiple benchmark datasets demonstrate that Cequel consistently outperforms existing methods in unsupervised text clustering under the same query budget.
- Abstract(参考訳): テキストクラスタリングは、文書の集合を言語的特徴に基づく一貫性のあるグループに自動的に分割することを目的としている。
文献では、このタスクは、事前訓練されたテキスト埋め込み上のメトリッククラスタリングとして、あるいは、オラクルから派生したペアワイドな類似性(例えば、大規模機械学習モデル)に基づいてグラフクラスタリングとして定式化される。
大規模言語モデル(LLM)の最近の進歩は、高品質な文脈的埋め込みと正確な意味的類似度推定を提供することにより、この分野を著しく改善している。
しかし、LLMを大規模に活用することは、大量の必要なAPIクエリや推論コールのために、相当な計算と金銭的コストをもたらす。
この問題に対処するために,LLMクエリの限られた予算の下で,正確なテキストクラスタリングを実現する費用効率のよいフレームワークであるCequelを提案する。
その中核となるCequelは,提案アルゴリズムであるEdgeLLMとTriangleLLMによって識別された情報的テキストペアや三つ子に対して LLM を選択的にクエリすることで,必須リンクと不可能リンクの制約を構築する。
これらの制約は、重み付けされた制約付きクラスタリングアルゴリズムで利用され、高品質なクラスタを形成する。
具体的には、EdgeLLMとTriangleLLMは慎重に設計された欲求選択戦略を採用し、情報的制約を効率的に識別し抽出する手法を推進している。
複数のベンチマークデータセットの実験では、Cequelは同じクエリ予算の下で、教師なしのテキストクラスタリングにおいて、既存のメソッドを一貫して上回っていることが示されている。
関連論文リスト
- LLM-Symbolic Integration for Robust Temporal Tabular Reasoning [69.27153114778748]
本研究では,システムおよび制御された評価のための合成データセットであるTempTabQA-Cを紹介する。
この構造化アプローチにより、LLM(Large Language Models)はsqlクエリの生成と実行を可能にし、一般化とバイアス軽減の強化を行う。
論文 参考訳(メタデータ) (2025-06-06T05:14:04Z) - Large Language Model Meets Constraint Propagation [42.54350568915404]
GenCPは、予測と制約プログラミング(Constraint Programming, CP)推論を組み合わせることで、流動的なテキストを生成する。
我々は、制約伝搬を可能にするドメイン生成のためのMasked Language Models (MLMs)を統合することにより、GenCPを改善する。
COLLIEベンチマークによる評価は、双方向呼び出しによるドメインプレビューの導入により、GenCPの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-05-29T21:18:12Z) - Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究
LLM生成テキスト上に既存のテキスト埋め込みモデルを微調整することで、優れた分類精度が得られることが判明した。
我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文 参考訳(メタデータ) (2025-02-17T18:59:02Z) - k-LLMmeans: Summaries as Centroids for Interpretable and Scalable LLM-Based Text Clustering [0.0]
k-LLMmeansは,LLMを用いてテキスト要約をクラスタセンタロイドとして生成する,k-meansクラスタリングアルゴリズムの新たな改良である。
この修正は、より高い解釈性を提供しながら、k-平均の性質を保っている。
本稿では,シーケンシャルテキストストリームにおけるクラスタセントロイドの解釈可能性を示すケーススタディを提案する。
論文 参考訳(メタデータ) (2025-02-12T19:50:22Z) - TableTime: Reformulating Time Series Classification as Training-Free Table Understanding with Large Language Models [14.880203496664963]
大規模言語モデル (LLM) は多変量時系列分類において有効であることを示した。
LLM は LLM の潜在空間内の時系列の埋め込みを直接コードし、LLM の意味空間と一致させる。
MTSCを表理解タスクとして再編成するテーブルタイムを提案する。
論文 参考訳(メタデータ) (2024-11-24T07:02:32Z) - LLM$\times$MapReduce: Simplified Long-Sequence Processing using Large Language Models [73.13933847198395]
本稿では,文書理解を包括的に行うための分割・対数戦略を利用して,長文処理のための学習自由フレームワークを提案する。
提案された LLM$times$MapReduce フレームワークは、ドキュメント全体を LLM が読み取るためにいくつかのチャンクに分割し、中間回答を集約して最終的な出力を生成する。
論文 参考訳(メタデータ) (2024-10-12T03:13:44Z) - Text Clustering as Classification with LLMs [6.030435811868953]
本研究では,大規模言語モデル(LLM)の文脈内学習能力を効果的に活用する,テキストクラスタリングのための新しいフレームワークを提案する。
そこで本研究では,テキストクラスタリングをLLMによる分類タスクに変換することを提案する。
我々のフレームワークは、最先端のクラスタリング手法に匹敵する、あるいは優れた性能を達成できることが実験的に証明されている。
論文 参考訳(メタデータ) (2024-09-30T16:57:34Z) - TACT: Advancing Complex Aggregative Reasoning with Information Extraction Tools [51.576974932743596]
大規模言語モデル(LLM)は、テキスト間の情報の集約を必要とするクエリではよく機能しないことが多い。
TACTには、1つ以上のテキストに散らばる縫合情報を要求する難しい命令が含まれている。
既存のテキストと関連するテーブルのデータセットを活用することで、このデータセットを構築します。
現代のLLMはいずれも,このデータセットでは性能が悪く,精度が38%以下であることが実証された。
論文 参考訳(メタデータ) (2024-06-05T20:32:56Z) - Human-interpretable clustering of short-text using large language models [0.0]
この研究は、大規模言語モデル(LLM)が従来のクラスタリングアプローチの限界を克服できることを示している。
結果として得られたクラスターはより独特で、より人間的に解釈可能である。
論文 参考訳(メタデータ) (2024-05-12T12:55:40Z) - Context-Aware Clustering using Large Language Models [20.971691166166547]
CACTUS (Context-Aware ClusTering with aUgmented triplet losS) を提案する。
本稿では,大規模言語モデル(LLM)を用いたクラスタリングエンティティサブセットへの新たなアプローチを提案する。
論文 参考訳(メタデータ) (2024-05-02T03:50:31Z) - Text Clustering with Large Language Model Embeddings [0.0]
テキストクラスタリングの有効性は、テキスト埋め込みとクラスタリングアルゴリズムの選択に大きく依存する。
大規模言語モデル(LLM)の最近の進歩は、このタスクを強化する可能性を秘めている。
LLM埋め込みは構造化言語の微妙さを捉えるのに優れていることを示す。
論文 参考訳(メタデータ) (2024-03-22T11:08:48Z) - FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models [79.62191017182518]
FollowBenchは、大規模言語モデルのベンチマークに続くきめ細かい制約のベンチマークである。
本稿では,初期命令に段階的に1つの制約を付加するマルチレベル機構を提案する。
FollowBench上での13のLLMの評価により,LLMの弱さと今後の研究への道のりを示す。
論文 参考訳(メタデータ) (2023-10-31T12:32:38Z) - Evaluating, Understanding, and Improving Constrained Text Generation for Large Language Models [49.74036826946397]
本研究では,大言語モデル(LLM)の制約付きテキスト生成について検討する。
本研究は主に,制約を語彙型,構造型,関係型に分類するオープンソース LLM に重点を置いている。
その結果、LLMの能力と不足を照らし、制約を取り入れ、制約付きテキスト生成における将来の発展に対する洞察を提供する。
論文 参考訳(メタデータ) (2023-10-25T03:58:49Z) - Large Language Models Enable Few-Shot Clustering [88.06276828752553]
大規模言語モデルは、クエリ効率が良く、数発のセミ教師付きテキストクラスタリングを可能にするために、専門家のガイダンスを増幅できることを示す。
最初の2つのステージにLSMを組み込むことで、クラスタの品質が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2023-07-02T09:17:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。