論文の概要: VIPAMIN: Visual Prompt Initialization via Embedding Selection and Subspace Expansion
- arxiv url: http://arxiv.org/abs/2510.16446v1
- Date: Sat, 18 Oct 2025 10:49:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.0006
- Title: VIPAMIN: Visual Prompt Initialization via Embedding Selection and Subspace Expansion
- Title(参考訳): VIPAMIN: 埋め込み選択とサブスペース拡張による視覚プロンプト初期化
- Authors: Jaekyun Park, Hye Won Chung,
- Abstract要約: 本稿では,自己教師型モデルの適応性を高める視覚的プロンプト戦略であるVIPAMINを紹介する。
VIPAMINは、さまざまなタスクとデータセットサイズにわたるパフォーマンスを一貫して改善する。
- 参考スコア(独自算出の注目度): 18.62063702912855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the era of large-scale foundation models, fully fine-tuning pretrained networks for each downstream task is often prohibitively resource-intensive. Prompt tuning offers a lightweight alternative by introducing tunable prompts while keeping the backbone frozen. However, existing visual prompt tuning methods often fail to specialize the prompts or enrich the representation space--especially when applied to self-supervised backbones. We show that these limitations become especially pronounced in challenging tasks and data-scarce settings, where effective adaptation is most critical. In this work, we introduce VIPAMIN, a visual prompt initialization strategy that enhances adaptation of self-supervised models by (1) aligning prompts with semantically informative regions in the embedding space, and (2) injecting novel representational directions beyond the pretrained subspace. Despite its simplicity--requiring only a single forward pass and lightweight operations--VIPAMIN consistently improves performance across diverse tasks and dataset sizes, setting a new state of the art in visual prompt tuning. Our code is available at https://github.com/iamjaekyun/vipamin.
- Abstract(参考訳): 大規模ファンデーションモデルの時代において、ダウンストリームの各タスクに対して、完全に微調整された事前訓練ネットワークは、しばしば資源集約的に禁止される。
プロンプトチューニングは、背骨を凍結させながら調整可能なプロンプトを導入することで、軽量な代替手段を提供する。
しかし、既存の視覚的プロンプトチューニング手法は、プロンプトを専門化したり、表現空間を充実させるのに失敗することが多い。
これらの制限は、効果的な適応が最重要となる課題やデータスカース設定において特に顕著になる。
本研究では,(1)埋め込み空間における意味的情報領域にプロンプトをアライメントすることで,自己教師付きモデルの適応性を高める視覚的プロンプト初期化戦略であるVIPAMINを紹介し,(2)事前訓練された部分空間を超えて,新しい表現方向を注入する。
シンプルさにもかかわらず、単一のフォワードパスと軽量な操作しか必要とせず、VIPAMINは、さまざまなタスクやデータセットサイズにわたるパフォーマンスを一貫して改善し、視覚的なプロンプトチューニングにおいて新たな最先端の設定を行う。
私たちのコードはhttps://github.com/iamjaekyun/vipamin.comから入手可能です。
関連論文リスト
- Personalized Vision via Visual In-Context Learning [62.85784251383279]
パーソナライズされた視覚のためのビジュアル・イン・コンテキスト・ラーニング・フレームワークを提案する。
PICOは基盤となる変換を推測し、再トレーニングせずに新しい入力に適用する。
また,効率的な推論スケーリングによる信頼性向上を目的とした注意誘導型シードスコアラを提案する。
論文 参考訳(メタデータ) (2025-09-29T17:58:45Z) - Progressive Visual Prompt Learning with Contrastive Feature Re-formation [15.385630262368661]
本稿では,異なるレイヤのプロンプト間の相互作用を強化するために,プログレッシブ・ビジュアル・プロンプト(ProVP)構造を提案する。
我々のProVPは、画像の埋め込みを深い層に効果的に伝播させ、インスタンス適応的なプロンプトメソッドと部分的に似た振る舞いをすることができる。
我々の知る限り、我々はV-Lモデルにおける視覚的プロンプトの、下流タスクにおける従来のプロンプトベースの手法よりも優れた性能を示す最初の人物である。
論文 参考訳(メタデータ) (2023-04-17T15:54:10Z) - Gradient-Regulated Meta-Prompt Learning for Generalizable
Vision-Language Models [137.74524357614285]
グラディエント・レグルアテッドメタプロンプト学習フレームワークについて紹介する。
パラメーターとデータ -- 効率的な方法で下流タスクにモデルを適応させるのに役立つ。
GRAMはモデルに依存しない方法で様々なプロンプトチューニング手法に容易に組み込むことができる。
論文 参考訳(メタデータ) (2023-03-12T05:03:37Z) - Dynamic Prompting: A Unified Framework for Prompt Tuning [33.175097465669374]
本稿では、特定のタスクやインスタンスに基づいて、異なるプロンプトの要因を動的に決定する統合動的プロンプト(DP)チューニング戦略を提案する。
実験結果は、幅広いタスクにわたる動的プロンプトチューニングによって達成された顕著なパフォーマンス改善を裏付けるものである。
我々は、全データ、少数ショット、マルチタスクのシナリオの下で、我々のアプローチの普遍的な適用性を確立する。
論文 参考訳(メタデータ) (2023-03-06T06:04:46Z) - Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary
Object Detection [87.39089806069707]
オープン語彙検出(VTP-OVD)のための微粒なビジュアルテキストプロンプト駆動型自己学習パラダイムを提案する。
適応段階では、学習可能なテキストプロンプトを用いて細粒度アライメントを可能とし、補助的なピクセルワイズ予測タスクを解決する。
実験の結果,COCO の未確認クラスでは,31.5% mAP など,オープン語彙オブジェクト検出の最先端性能が得られた。
論文 参考訳(メタデータ) (2022-11-02T03:38:02Z) - CLIP-Adapter: Better Vision-Language Models with Feature Adapters [84.88106370842883]
即時チューニング以外に、より良い視覚言語モデルを実現するための代替経路があることが示される。
CLIP-Adapterは新たなボトルネックレイヤを採用して、新機能を学び、残留スタイルの機能ブレンディングを実行する。
様々な視覚的分類タスクの実験および広範囲なアブレーション研究は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2021-10-09T11:39:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。