論文の概要: Cluster-Aware Prompt Ensemble Learning for Few-Shot Vision-Language Model Adaptation
- arxiv url: http://arxiv.org/abs/2510.09867v1
- Date: Fri, 10 Oct 2025 20:58:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.655451
- Title: Cluster-Aware Prompt Ensemble Learning for Few-Shot Vision-Language Model Adaptation
- Title(参考訳): Few-Shot Vision-Language Model Adaptationのためのクラスタ対応プロンプトアンサンブル学習
- Authors: Zhi Chen, Xin Yu, Xiaohui Tao, Yan Li, Zi Huang,
- Abstract要約: CLIPのような視覚言語モデル(VLM)は、多数の画像テキストペアを事前学習することで、様々なタスク間でゼロショット転送を実現する。
有効であるにもかかわらず、コンテキストプロンプトのテキスト的特徴を平均化する従来のプロンプトアンサンブルは、しばしば準最適結果をもたらす。
本稿では,コンテキストプロンプトのクラスタ特性を保存するクラスタ・アウェア・プロンプト・アンサンブル・ラーニング・フレームワークを提案する。
- 参考スコア(独自算出の注目度): 40.60703048681749
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) such as CLIP achieve zero-shot transfer across various tasks by pre-training on numerous image-text pairs. These models often benefit from using an ensemble of context prompts to represent a class. Despite being effective, conventional prompt ensembling that averages textual features of context prompts often yields suboptimal results. This is because feature averaging shifts the class centroids away from the true class distribution. To address this issue, we propose the Cluster-Aware Prompt Ensemble Learning (CAPEL) framework, which preserves the cluster nature of context prompts. CAPEL classifies images into one of several class clusters, each represented by a distinct prompt. Instead of ensembling prompts in the feature space, we perform ensembling in the classification logits space, aligning better with the visual feature distribution. To further optimize prompt fine-tuning while maintaining cluster-specific discriminative power, we introduce a cluster-preserving regularization term. This ensures that prompts remain distinct and specialized for different clusters, preventing collapse into a uniform direction. Additionally, we integrate an adaptive prompt weighting technique to dynamically adjust the attention weights for flawed or ambiguous prompts, ensuring robust performance across diverse datasets and tasks.
- Abstract(参考訳): CLIPのような視覚言語モデル(VLM)は、多数の画像テキストペアを事前学習することで、様々なタスク間でゼロショット転送を実現する。
これらのモデルは、しばしばクラスを表現するためのコンテキストプロンプトのアンサンブルを使用することの恩恵を受ける。
有効であるにもかかわらず、コンテキストプロンプトのテキスト的特徴を平均化する従来のプロンプトアンサンブルは、しばしば準最適結果をもたらす。
これは、機能平均化がクラスセントロイドを真のクラス分布から遠ざけるためである。
この問題に対処するために、コンテキストプロンプトのクラスタ特性を保存するCAPEL(Cluster-Aware Prompt Ensemble Learning)フレームワークを提案する。
CAPELはイメージをいくつかのクラスクラスタの1つに分類し、それぞれが異なるプロンプトで表現する。
特徴空間のアンサンブルプロンプトの代わりに、分類ロジット空間でアンサンブルを行い、視覚的特徴分布と整合する。
クラスタ固有の識別能力を維持しながら、迅速な微調整をさらに最適化するため、クラスタ保存正規化項を導入する。
これにより、プロンプトが区別され、異なるクラスタに特化されることが保証され、均一な方向に崩壊するのを防ぐ。
さらに、適応的なプロンプト重み付け技術を統合し、欠陥や曖昧なプロンプトに対する注意重み付けを動的に調整し、多様なデータセットやタスク間で堅牢なパフォーマンスを確保する。
関連論文リスト
- In-Context Clustering with Large Language Models [50.25868718329313]
ICCは、注意機構を通じて入力間の複雑な関係をキャプチャする。
事前学習したLLMは、テキスト符号化された数値データに対して、印象的なゼロショットクラスタリング機能を示す。
我々の研究は、文脈内学習を教師なしの設定に拡張し、クラスタリングにおけるLLMの有効性と柔軟性を示します。
論文 参考訳(メタデータ) (2025-10-09T17:07:55Z) - Multiple Stochastic Prompt Tuning for Few-shot Adaptation under Extreme Domain Shift [14.85375816073596]
クラス毎に複数の学習可能なプロンプトを導入し,分布シフトによる視覚表現の多様なモードをキャプチャする。
これらのプロンプトは学習可能なガウス分布としてモデル化され、プロンプトパラメータ空間の効率的な探索を可能にする。
実験と最先端手法との比較により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2025-06-04T13:18:04Z) - Cluster Specific Representation Learning [1.6727186769396276]
広く応用されているにもかかわらず、善の表象の定義は確立されていない。
本稿では,データに固有のクラスタが存在する場合,各クラスタに固有の表現が必要であるという,ダウンストリームに依存しない定式化を提案する。
そこで我々は,クラスタ固有の表現とクラスタ割り当てを共同で学習するメタアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-12-04T16:59:37Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - You Never Cluster Alone [150.94921340034688]
我々は、主流のコントラスト学習パラダイムをクラスタレベルのスキームに拡張し、同じクラスタに属するすべてのデータが統一された表現に寄与する。
分類変数の集合をクラスタ化代入信頼度として定義し、インスタンスレベルの学習トラックとクラスタレベルの学習トラックを関連付ける。
代入変数を再パラメータ化することで、TCCはエンドツーエンドでトレーニングされる。
論文 参考訳(メタデータ) (2021-06-03T14:59:59Z) - Unsupervised Visual Representation Learning by Online Constrained
K-Means [44.38989920488318]
クラスタ識別は、教師なし表現学習の効果的な前提課題である。
オンラインtextbfConstrained textbfK-mtextbfeans (textbfCoKe) を用いたクラスタリングに基づく新しいプリテキストタスクを提案する。
当社のオンライン割当て方式は,グローバルな最適化に近づくための理論的保証を持っている。
論文 参考訳(メタデータ) (2021-05-24T20:38:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。