論文の概要: Understanding Model Reprogramming for CLIP via Decoupling Visual Prompts
- arxiv url: http://arxiv.org/abs/2506.01000v1
- Date: Sun, 01 Jun 2025 13:12:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:09.244421
- Title: Understanding Model Reprogramming for CLIP via Decoupling Visual Prompts
- Title(参考訳): ビジュアルプロンプトのデカップリングによるCLIPのモデル再プログラミング理解
- Authors: Chengyi Cai, Zesheng Ye, Lei Feng, Jianzhong Qi, Feng Liu,
- Abstract要約: 視覚的リプログラミングのためのデカップリング・アンド・リウェイト化フレームワークを提案する。
分離視覚プロンプト(DVP)は、明示的な原因によってグループ化された記述を用いて最適化される。
我々はこれらの視覚的プロンプトの出力を確率的再重み付け行列(PRM)と統合し、各下流クラスへの貢献度を測定する。
- 参考スコア(独自算出の注目度): 20.27639343292564
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model reprogramming adapts pretrained models to downstream tasks by modifying only the input and output spaces. Visual reprogramming (VR) is one instance for vision tasks that adds a trainable noise pattern (i.e., a visual prompt) to input images to facilitate downstream classification. The existing VR approaches for CLIP train a single visual prompt using all descriptions of different downstream classes. However, the limited learning capacity may result in (1) a failure to capture diverse aspects of the descriptions (e.g., shape, color, and texture), and (2) a possible bias toward less informative attributes that do not help distinguish between classes. In this paper, we introduce a decoupling-and-reweighting framework. Our decoupled visual prompts (DVP) are optimized using descriptions grouped by explicit causes (DVP-cse) or unsupervised clusters (DVP-cls). Then, we integrate the outputs of these visual prompts with a probabilistic reweighting matrix (PRM) that measures their contributions to each downstream class. Theoretically, DVP lowers the empirical risk bound. Experimentally, DVP outperforms baselines on average across 11 downstream datasets. Notably, the DVP-PRM integration enables insights into how individual visual prompts influence classification decisions, providing a probabilistic framework for understanding reprogramming. Our code is available at https://github.com/tmlr-group/DecoupledVP.
- Abstract(参考訳): モデル再プログラミングは、入力空間と出力空間だけを変更することによって、事前訓練されたモデルを下流タスクに適応させる。
視覚的リプログラミング(VR)は、下流の分類を容易にするために画像入力にトレーニング可能なノイズパターン(視覚的プロンプト)を追加する視覚タスクのインスタンスである。
CLIPの既存のVRアプローチは、異なる下流クラスのすべての記述を使用して、単一のビジュアルプロンプトをトレーニングする。
しかし, 学習能力の限界は, 1) 記述の多様な側面(例えば, 形状, 色, テクスチャ)を捉えるのに失敗し, (2) クラス間の区別を助長しない情報的属性に対するバイアスを生じさせる可能性がある。
本稿では,デカップリング・アンド・リウェイト化フレームワークを提案する。
我々の分離された視覚的プロンプト(DVP)は、明示的な原因(DVP-cse)または教師なしクラスタ(DVP-cls)によってグループ化された記述を用いて最適化される。
次に、これらの視覚的プロンプトの出力を確率的再重み付け行列(PRM)と統合し、各下流クラスへの貢献度を測定する。
理論的には、DVPは経験的リスクバウンドを下げる。
実験的に、DVPは11の下流データセットで平均ベースラインを上回っている。
特に、DVP-PRM統合は、個々の視覚が分類決定にどのように影響するかについての洞察を可能にし、再プログラミングを理解するための確率的枠組みを提供する。
私たちのコードはhttps://github.com/tmlr-group/DecoupledVPで利用可能です。
関連論文リスト
- Attribute-based Visual Reprogramming for Vision-Language Models [20.27639343292564]
CLIP用の属性ベースのビジュアルリプログラミング(AttrVR)。
AttrVRは、イメージサンプル毎に$k$-nearest DesAttrsとDistAttrsを使用してパターンを反復的に洗練する。
実証的には、ViTベースの12のダウンストリームタスクとResNetベースのCLIPの両方で、優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-01-23T06:32:21Z) - Text Descriptions are Compressive and Invariant Representations for
Visual Learning [63.3464863723631]
本研究では,クラスごとの複数の視覚的特徴に対する人間の理解に則って,頑健な数ショット学習環境では魅力的な性能が得られることを示す。
特に,SLR-AVD (Sparse Logistic Regression using Augmented Visual Descriptors) という新しい手法を導入する。
このメソッドはまず、まず大きな言語モデル(LLM)を介して各クラスの複数の視覚的記述を自動生成し、次にVLMを使用してこれらの記述を各画像の視覚的特徴埋め込みに変換し、最後に、これらの特徴の関連するサブセットを選択するためにスパースロジスティック回帰を使用する。
論文 参考訳(メタデータ) (2023-07-10T03:06:45Z) - ProbVLM: Probabilistic Adapter for Frozen Vision-Language Models [69.50316788263433]
本稿では,事前学習された視覚言語モデルの埋め込みに対する確率分布を推定する確率的アダプタProbVLMを提案する。
本稿では,検索タスクにおける不確実性埋め込みのキャリブレーションを定量化し,ProbVLMが他の手法よりも優れていることを示す。
本稿では,大規模な事前学習型潜伏拡散モデルを用いて,埋め込み分布を可視化する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-01T18:16:06Z) - Progressive Visual Prompt Learning with Contrastive Feature Re-formation [15.385630262368661]
本稿では,異なるレイヤのプロンプト間の相互作用を強化するために,プログレッシブ・ビジュアル・プロンプト(ProVP)構造を提案する。
我々のProVPは、画像の埋め込みを深い層に効果的に伝播させ、インスタンス適応的なプロンプトメソッドと部分的に似た振る舞いをすることができる。
我々の知る限り、我々はV-Lモデルにおける視覚的プロンプトの、下流タスクにおける従来のプロンプトベースの手法よりも優れた性能を示す最初の人物である。
論文 参考訳(メタデータ) (2023-04-17T15:54:10Z) - Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary
Object Detection [87.39089806069707]
オープン語彙検出(VTP-OVD)のための微粒なビジュアルテキストプロンプト駆動型自己学習パラダイムを提案する。
適応段階では、学習可能なテキストプロンプトを用いて細粒度アライメントを可能とし、補助的なピクセルワイズ予測タスクを解決する。
実験の結果,COCO の未確認クラスでは,31.5% mAP など,オープン語彙オブジェクト検出の最先端性能が得られた。
論文 参考訳(メタデータ) (2022-11-02T03:38:02Z) - LASP: Text-to-Text Optimization for Language-Aware Soft Prompting of
Vision & Language Models [67.19124099815645]
ベースクラスオーバーフィットを軽減するために,Language-Aware Soft Prompting (LASP) 学習手法を提案する。
LASPは本質的に、トレーニング中に仮想クラス、すなわちビジュアルサンプルが使用できないクラス名を含むことができる。
LASPは、手作りのプロンプトとCLIPによる11のテストデータセットのうち8つの新しいクラスの精度が初めて一致し、上回っている。
論文 参考訳(メタデータ) (2022-10-03T17:56:35Z) - Contrastive Visual-Linguistic Pretraining [48.88553854384866]
コントラスト的視覚言語事前学習は、コントラスト的学習に基づいて構築された視覚的自己監督的損失を構成する。
VQA, GQA, NLVR2などの下流タスクで評価した。
論文 参考訳(メタデータ) (2020-07-26T14:26:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。