論文の概要: ClusterLLM: Large Language Models as a Guide for Text Clustering
- arxiv url: http://arxiv.org/abs/2305.14871v2
- Date: Fri, 3 Nov 2023 19:40:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 22:27:39.295774
- Title: ClusterLLM: Large Language Models as a Guide for Text Clustering
- Title(参考訳): ClusterLLM: テキストクラスタリングガイドとしての大規模言語モデル
- Authors: Yuwei Zhang, Zihan Wang, Jingbo Shang
- Abstract要約: 本稿では,ChatGPTのような命令調整型大規模言語モデルからのフィードバックを活用する新しいテキストクラスタリングフレームワークであるClusterLLMを紹介する。
ClusterLLMはクラスタリングの品質を継続的に改善し、平均コストはデータセットあたり0.6ドルである。
- 参考スコア(独自算出の注目度): 45.835625439515
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce ClusterLLM, a novel text clustering framework that leverages
feedback from an instruction-tuned large language model, such as ChatGPT.
Compared with traditional unsupervised methods that builds upon "small"
embedders, ClusterLLM exhibits two intriguing advantages: (1) it enjoys the
emergent capability of LLM even if its embeddings are inaccessible; and (2) it
understands the user's preference on clustering through textual instruction
and/or a few annotated data. First, we prompt ChatGPT for insights on
clustering perspective by constructing hard triplet questions <does A better
correspond to B than C>, where A, B and C are similar data points that belong
to different clusters according to small embedder. We empirically show that
this strategy is both effective for fine-tuning small embedder and
cost-efficient to query ChatGPT. Second, we prompt ChatGPT for helps on
clustering granularity by carefully designed pairwise questions <do A and B
belong to the same category>, and tune the granularity from cluster hierarchies
that is the most consistent with the ChatGPT answers. Extensive experiments on
14 datasets show that ClusterLLM consistently improves clustering quality, at
an average cost of ~$0.6 per dataset. The code will be available at
https://github.com/zhang-yu-wei/ClusterLLM.
- Abstract(参考訳): chatgpt のような命令調整された大規模言語モデルからのフィードバックを活用する,新しいテキストクラスタリングフレームワーク clusterllm を紹介する。
従来の"小さな"埋め込みをベースとした教師なしの手法と比較して、ClusterLLMは、(1)埋め込みがアクセスできない場合でもLCMの創発的な能力を享受し、(2)テキスト命令や注釈付きデータによるクラスタリングに対するユーザの好みを理解している。
まず,A,B,Cが異なるクラスタに属する類似データポイントである場合,強硬な三重項質問<does A better to B than C>を構成することにより,クラスタリングの視点についての洞察をChatGPTに促す。
筆者らは,この戦略が小型埋め込み機の微調整とChatGPTクエリのコスト効率に有効であることを実証的に示す。
第二に、ChatGPTは、ペアワイズな質問<do AとBは同じカテゴリに属する>によって、クラスタの粒度をクラスタ化するのに役立ち、ChatGPTの回答と最も整合したクラスタ階層から粒度を調整する。
14のデータセットに対する大規模な実験によると、ClusterLLMはデータセット当たりの平均コストが約0.6ドルで、クラスタリング品質を継続的に改善している。
コードはhttps://github.com/zhang-yu-wei/clusterllmで入手できる。
関連論文リスト
- Text Clustering as Classification with LLMs [6.030435811868953]
本研究では,大規模言語モデル(LLM)の文脈内学習能力を効果的に活用する,テキストクラスタリングのための新しいフレームワークを提案する。
そこで本研究では,テキストクラスタリングをLLMによる分類タスクに変換することを提案する。
我々のフレームワークは、最先端のクラスタリング手法に匹敵する、あるいは優れた性能を達成できることが実験的に証明されている。
論文 参考訳(メタデータ) (2024-09-30T16:57:34Z) - Reinforcement Graph Clustering with Unknown Cluster Number [91.4861135742095]
本稿では,Reinforcement Graph Clusteringと呼ばれる新しいディープグラフクラスタリング手法を提案する。
提案手法では,クラスタ数決定と教師なし表現学習を統一的なフレームワークに統合する。
フィードバック動作を行うために、クラスタリング指向の報酬関数を提案し、同一クラスタの凝集を高め、異なるクラスタを分離する。
論文 参考訳(メタデータ) (2023-08-13T18:12:28Z) - Large Language Models Enable Few-Shot Clustering [88.06276828752553]
大規模言語モデルは、クエリ効率が良く、数発のセミ教師付きテキストクラスタリングを可能にするために、専門家のガイダンスを増幅できることを示す。
最初の2つのステージにLSMを組み込むことで、クラスタの品質が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2023-07-02T09:17:11Z) - Deep Multi-View Subspace Clustering with Anchor Graph [11.291831842959926]
アンカーグラフ(DMCAG)を用いた深層多視点サブスペースクラスタリング手法を提案する。
DMCAGは各ビューの埋め込み機能を独立して学習し、サブスペース表現を得るために使用される。
本手法は他の最先端手法よりも優れたクラスタリング性能を実現する。
論文 参考訳(メタデータ) (2023-05-11T16:17:43Z) - Self-supervised Contrastive Attributed Graph Clustering [110.52694943592974]
我々は,自己教師型コントラストグラフクラスタリング(SCAGC)という,新たな属性グラフクラスタリングネットワークを提案する。
SCAGCでは,不正確なクラスタリングラベルを活用することで,ノード表現学習のための自己教師付きコントラスト損失を設計する。
OOSノードでは、SCAGCはクラスタリングラベルを直接計算できる。
論文 参考訳(メタデータ) (2021-10-15T03:25:28Z) - You Never Cluster Alone [150.94921340034688]
我々は、主流のコントラスト学習パラダイムをクラスタレベルのスキームに拡張し、同じクラスタに属するすべてのデータが統一された表現に寄与する。
分類変数の集合をクラスタ化代入信頼度として定義し、インスタンスレベルの学習トラックとクラスタレベルの学習トラックを関連付ける。
代入変数を再パラメータ化することで、TCCはエンドツーエンドでトレーニングされる。
論文 参考訳(メタデータ) (2021-06-03T14:59:59Z) - Unsupervised Visual Representation Learning by Online Constrained
K-Means [44.38989920488318]
クラスタ識別は、教師なし表現学習の効果的な前提課題である。
オンラインtextbfConstrained textbfK-mtextbfeans (textbfCoKe) を用いたクラスタリングに基づく新しいプリテキストタスクを提案する。
当社のオンライン割当て方式は,グローバルな最適化に近づくための理論的保証を持っている。
論文 参考訳(メタデータ) (2021-05-24T20:38:32Z) - Topic Modeling with Contextualized Word Representation Clusters [8.49454123392354]
トークンレベルの文脈化された単語表現のクラスタリングは、英語のテキストコレクションのトピックモデルと多くの類似点を共有する出力を生成する。
人気言語モデルの複数の異なる出力層から学習したトークンクラスタリングを評価する。
論文 参考訳(メタデータ) (2020-10-23T19:16:59Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。