論文の概要: In-Context Clustering with Large Language Models
- arxiv url: http://arxiv.org/abs/2510.08466v1
- Date: Thu, 09 Oct 2025 17:07:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.229495
- Title: In-Context Clustering with Large Language Models
- Title(参考訳): 大規模言語モデルを用いたインコンテキストクラスタリング
- Authors: Ying Wang, Mengye Ren, Andrew Gordon Wilson,
- Abstract要約: ICCは、注意機構を通じて入力間の複雑な関係をキャプチャする。
事前学習したLLMは、テキスト符号化された数値データに対して、印象的なゼロショットクラスタリング機能を示す。
我々の研究は、文脈内学習を教師なしの設定に拡張し、クラスタリングにおけるLLMの有効性と柔軟性を示します。
- 参考スコア(独自算出の注目度): 50.25868718329313
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose In-Context Clustering (ICC), a flexible LLM-based procedure for clustering data from diverse distributions. Unlike traditional clustering algorithms constrained by predefined similarity measures, ICC flexibly captures complex relationships among inputs through an attention mechanism. We show that pretrained LLMs exhibit impressive zero-shot clustering capabilities on text-encoded numeric data, with attention matrices showing salient cluster patterns. Spectral clustering using attention matrices offers surprisingly competitive performance. We further enhance the clustering capabilities of LLMs on numeric and image data through fine-tuning using the Next Token Prediction (NTP) loss. Moreover, the flexibility of LLM prompting enables text-conditioned image clustering, a capability that classical clustering methods lack. Our work extends in-context learning to an unsupervised setting, showcasing the effectiveness and flexibility of LLMs for clustering. Our code is available at https://agenticlearning.ai/icc.
- Abstract(参考訳): In-Context Clustering (ICC) は、多様な分布からデータをクラスタリングするための柔軟なLCMベースのプロシージャである。
事前定義された類似度尺度で制約された従来のクラスタリングアルゴリズムとは異なり、ICCは注意機構を通じて入力間の複雑な関係を柔軟にキャプチャする。
事前学習したLCMは、テキスト符号化された数値データに優れたゼロショットクラスタリング能力を示し、注意行列は有意なクラスタパターンを示す。
注目行列を用いたスペクトルクラスタリングは、驚くほど競争力のあるパフォーマンスを提供する。
我々は、Next Token Prediction (NTP)損失を用いた微調整により、数値および画像データ上のLCMのクラスタリング機能をさらに強化する。
さらに、LLMプロンプトの柔軟性により、古典的なクラスタリング手法に欠けるテキスト条件のイメージクラスタリングが可能になる。
我々の研究は、文脈内学習を教師なしの設定に拡張し、クラスタリングにおけるLLMの有効性と柔軟性を示します。
私たちのコードはhttps://agenticlearning.ai/icc.comで公開されています。
関連論文リスト
- Fuzzy Cluster-Aware Contrastive Clustering for Time Series [1.435214708535728]
従来の教師なしクラスタリング手法は、しばしば時系列データの複雑な性質を捉えるのに失敗する。
本稿では,表現学習とクラスタリングを協調的に最適化するファジィクラスタ対応コントラストクラスタリングフレームワーク(FCACC)を提案する。
本稿では,時系列データの様々な特徴を活用して特徴抽出を強化するために,新しい3視点データ拡張手法を提案する。
論文 参考訳(メタデータ) (2025-03-28T07:59:23Z) - Improving Autoregressive Visual Generation with Cluster-Oriented Token Prediction [52.09472099976885]
IARは、LLMベースのビジュアル生成モデルのトレーニング効率と生成品質を向上させる改良された自動回帰ビジュアル生成方法である。
提案手法は,モデルのトレーニング効率と性能を100Mから1.4Bに継続的に向上させ,同じFIDを達成しながらトレーニング時間を半減させる。
論文 参考訳(メタデータ) (2025-01-01T15:58:51Z) - Revisiting Self-Supervised Heterogeneous Graph Learning from Spectral Clustering Perspective [52.662463893268225]
自己教師付きヘテロジニアスグラフ学習(SHGL)は様々なシナリオにおいて有望な可能性を示している。
既存のSHGLメソッドには2つの大きな制限がある。
ランクと二重整合性制約によって強化された新しいフレームワークを導入する。
論文 参考訳(メタデータ) (2024-12-01T09:33:20Z) - Text Clustering as Classification with LLMs [9.128151647718251]
本稿では,大規模言語モデルの文脈内学習機能を活用することで,テキストクラスタリングを分類タスクとして再編成するフレームワークを提案する。
LLMの高度な自然言語理解と一般化機能を活用することで,人間の介入を最小限に抑えた効果的なクラスタリングを実現する。
多様なデータセットに対する実験結果から,我々のフレームワークは,最先端の組込みクラスタリング技術に匹敵する,あるいは優れた性能を達成できることが示された。
論文 参考訳(メタデータ) (2024-09-30T16:57:34Z) - Context-Aware Clustering using Large Language Models [20.971691166166547]
CACTUS (Context-Aware ClusTering with aUgmented triplet losS) を提案する。
本稿では,大規模言語モデル(LLM)を用いたクラスタリングエンティティサブセットへの新たなアプローチを提案する。
論文 参考訳(メタデータ) (2024-05-02T03:50:31Z) - End-to-end Learnable Clustering for Intent Learning in Recommendation [54.157784572994316]
我々は、アンダーラインELCRecと呼ばれる新しい意図学習手法を提案する。
振る舞い表現学習をUnderlineEnd-to-end UnderlineLearnable UnderlineClusteringフレームワークに統合する。
1億3000万ページビューの産業レコメンデーションシステムに本手法をデプロイし,有望な結果を得る。
論文 参考訳(メタデータ) (2024-01-11T15:22:55Z) - Large Language Models Enable Few-Shot Clustering [88.06276828752553]
大規模言語モデルは、クエリ効率が良く、数発のセミ教師付きテキストクラスタリングを可能にするために、専門家のガイダンスを増幅できることを示す。
最初の2つのステージにLSMを組み込むことで、クラスタの品質が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2023-07-02T09:17:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。