論文の概要: RESTORE: Towards Feature Shift for Vision-Language Prompt Learning
- arxiv url: http://arxiv.org/abs/2403.06136v1
- Date: Sun, 10 Mar 2024 08:52:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 07:26:46.041001
- Title: RESTORE: Towards Feature Shift for Vision-Language Prompt Learning
- Title(参考訳): RESTORE: ビジョンランゲージのプロンプト学習のための機能シフトを目指す
- Authors: Yuncheng Yang and Chuyan Zhang and Zuopeng Yang and Yuting Gao and
Yulei Qin and Ke Li and Xing Sun and Jie Yang and Yun Gu
- Abstract要約: ここでは,CLIPの1つの分岐のみに沿った即時チューニングが,誤調整の発生の原因であることを示す。
学習可能なパラメータをさまざまなモダリティで適切に正規化することなく、迅速な学習は元の事前学習制約に違反する。
クロスモーダルな一貫性に明示的な制約を課すマルチモーダルなプロンプト学習手法であるRESTOREを提案する。
- 参考スコア(独自算出の注目度): 33.13407089704543
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt learning is effective for fine-tuning foundation models to improve
their generalization across a variety of downstream tasks. However, the prompts
that are independently optimized along a single modality path, may sacrifice
the vision-language alignment of pre-trained models in return for improved
performance on specific tasks and classes, leading to poorer generalization. In
this paper, we first demonstrate that prompt tuning along only one single
branch of CLIP (e.g., language or vision) is the reason why the misalignment
occurs. Without proper regularization across the learnable parameters in
different modalities, prompt learning violates the original pre-training
constraints inherent in the two-tower architecture. To address such
misalignment, we first propose feature shift, which is defined as the variation
of embeddings after introducing the learned prompts, to serve as an explanatory
tool. We dive into its relation with generalizability and thereafter propose
RESTORE, a multi-modal prompt learning method that exerts explicit constraints
on cross-modal consistency. To be more specific, to prevent feature
misalignment, a feature shift consistency is introduced to synchronize
inter-modal feature shifts by measuring and regularizing the magnitude of
discrepancy during prompt tuning. In addition, we propose a "surgery" block to
avoid short-cut hacking, where cross-modal misalignment can still be severe if
the feature shift of each modality varies drastically at the same rate. It is
implemented as feed-forward adapters upon both modalities to alleviate the
misalignment problem. Extensive experiments on 15 datasets demonstrate that our
method outperforms the state-of-the-art prompt tuning methods without
compromising feature alignment.
- Abstract(参考訳): プロンプト学習は、様々な下流タスクにおける一般化を改善するための微調整基盤モデルに有効である。
しかし、単一のモダリティパスに沿って独立に最適化されたプロンプトは、特定のタスクやクラスのパフォーマンスを改善するために、事前訓練されたモデルの視覚言語アライメントを犠牲にする可能性がある。
本稿では,まず,クリップの1つの分岐(例えば言語や視覚)のみに沿ったプロンプトチューニングが,不一致が生じる理由であることを示す。
異なるモダリティの学習可能なパラメータを適切に規則化することなく、プロンプトラーニングは、2towerアーキテクチャに固有の元の事前学習制約に違反する。
このような誤解に対処するために,我々はまず,学習プロンプトの導入後の埋め込みの変動として定義される特徴シフトを提案し,説明ツールとして機能する。
本稿では,その一般化可能性との関係を考察し,クロスモーダル一貫性に明示的な制約を課すマルチモーダルプロンプト学習法restoreを提案する。
より具体的には、特徴の不整合を防止するために、即時チューニング時の差の大きさを計測・規則化し、モーダル間特徴シフトを同期させる特徴シフト整合を導入する。
さらに,各モダリティの特徴的変化が同じ速度で大きく変化する場合,クロスモーダルなミスアライメントが依然として厳しい場合,ショートカット攻撃を回避するための"サージリー"ブロックを提案する。
両モードのフィードフォワードアダプタとして実装され、不一致問題を緩和する。
15個のデータセットに対する大規模な実験により,提案手法は特徴の整合性を損なうことなく,最先端のプロンプトチューニング手法よりも優れていることが示された。
関連論文リスト
- Visual Prompt Tuning in Null Space for Continual Learning [51.96411454304625]
既存のプロンプトチューニング手法は、継続学習(CL)における印象的な性能を示す。
本稿では,従来のタスクの特徴に代表される部分空間に直交する方向のプロンプトを調整し,各タスクを学習することを目的とする。
実際には、即時勾配予測を実装するために、実効的なヌル空間に基づく近似解が提案されている。
論文 参考訳(メタデータ) (2024-06-09T05:57:40Z) - One Size Fits All for Semantic Shifts: Adaptive Prompt Tuning for Continual Learning [41.395573635020604]
本研究では,緩やかな変化と急激な変化が混在する度合いのセマンティックシフトに対応する適応的プロンプト手法を提案する。
AdaPromptCLは、プロンプトグループを動的に管理するアサイン・アンド・リファインなセマンティックグルーピングメカニズムを採用している。
実験の結果、AdaPromptCLは既存のプロンプト法を最大21.3%上回った。
論文 参考訳(メタデータ) (2023-11-18T08:55:08Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z) - Consistency-guided Prompt Learning for Vision-Language Models [23.4909421082857]
視覚言語モデルのための新しい微調整手法であるConsistency-Guided Prompt Learning (CoPrompt)を提案する。
提案手法は,下流タスクを数ショットで微調整した場合に,大規模な基礎モデルの一般化を改善する。
論文 参考訳(メタデータ) (2023-06-01T23:20:47Z) - Gradient-Regulated Meta-Prompt Learning for Generalizable
Vision-Language Models [137.74524357614285]
グラディエント・レグルアテッドメタプロンプト学習フレームワークについて紹介する。
パラメーターとデータ -- 効率的な方法で下流タスクにモデルを適応させるのに役立つ。
GRAMはモデルに依存しない方法で様々なプロンプトチューニング手法に容易に組み込むことができる。
論文 参考訳(メタデータ) (2023-03-12T05:03:37Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z) - Amortised Invariance Learning for Contrastive Self-Supervision [11.042648980854485]
対照的な自己監督のために, 償却不変学習の概念を導入する。
我々のアモーテッド機能は、異なる不変条件で様々な下流タスクを学習する信頼性の高い方法を提供することを示す。
これは、汎用表現学習の分野での新しい地平を開くエキサイティングな視点を提供する。
論文 参考訳(メタデータ) (2023-02-24T16:15:11Z) - Bayesian Prompt Learning for Image-Language Model Generalization [64.50204877434878]
我々はベイズ法の正規化能力を用いて、変分推論問題としてプロンプト学習をフレーム化する。
提案手法は,プロンプト空間を正規化し,目に見えないプロンプトへの過剰適合を低減し,目に見えないプロンプトのプロンプト一般化を改善する。
ベイジアン・プロンプト学習がプロンプト空間の適切なカバレッジを提供する15のベンチマークを実証的に示す。
論文 参考訳(メタデータ) (2022-10-05T17:05:56Z) - Progressively Guide to Attend: An Iterative Alignment Framework for
Temporal Sentence Grounding [53.377028000325424]
時間的文接地作業のための反復アライメントネットワーク(IA-Net)を提案する。
学習可能なパラメータを持つマルチモーダル特徴をパットすることで、非整合フレームワードペアの非整合問題を軽減する。
また、アライメントの知識を洗練させるために、各アライメントモジュールに従ってキャリブレーションモジュールを考案する。
論文 参考訳(メタデータ) (2021-09-14T02:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。