論文の概要: Dropout Prompt Learning: Towards Robust and Adaptive Vision-Language Models
- arxiv url: http://arxiv.org/abs/2512.07234v1
- Date: Mon, 08 Dec 2025 07:31:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.757822
- Title: Dropout Prompt Learning: Towards Robust and Adaptive Vision-Language Models
- Title(参考訳): ドロップアウト・プロンプト学習:ロバストと適応型視覚言語モデルを目指して
- Authors: Biao Chen, Lin Zuo, Mengmeng Jing, Kunbin He, Yuchen Wang,
- Abstract要約: Dropout Prompt Learningは、視覚言語モデルの堅牢性を改善するためにドロップアウトを適用することを目的としている。
本手法は, KgCoOp を5.10%, PromptSRC を2.13%上回る正則化法である。
- 参考スコア(独自算出の注目度): 22.573044825857043
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dropout is a widely used regularization technique which improves the generalization ability of a model by randomly dropping neurons. In light of this, we propose Dropout Prompt Learning, which aims for applying dropout to improve the robustness of the vision-language models. Different from the vanilla dropout, we apply dropout on the tokens of the textual and visual branches, where we evaluate the token significance considering both intra-modal context and inter-modal alignment, enabling flexible dropout probabilities for each token. Moreover, to maintain semantic alignment for general knowledge transfer while encouraging the diverse representations that dropout introduces, we further propose residual entropy regularization. Experiments on 15 benchmarks show our method's effectiveness in challenging scenarios like low-shot learning, long-tail classification, and out-of-distribution generalization. Notably, our method surpasses regularization-based methods including KgCoOp by 5.10% and PromptSRC by 2.13% in performance on base-to-novel generalization.
- Abstract(参考訳): ドロップアウト(英: Dropout)は、ランダムにニューロンを落とすことによってモデルの一般化能力を向上する、広く使われている正規化手法である。
そこで本研究では,視覚言語モデルのロバスト性を改善するためにドロップアウトを適用したDropout Prompt Learningを提案する。
バニラのドロップアウトと異なり、テキストおよび視覚枝のトークンにドロップアウトを適用し、各トークンに対してフレキシブルなドロップアウト確率を実現するために、モード内コンテキストとモード間アライメントの両方を考慮したトークンの重要度を評価する。
さらに,一般的な知識伝達のセマンティックアライメントを維持するために,ドロップアウトが導入する多様な表現を奨励し,残余エントロピー正則化を提案する。
15のベンチマークで実験したところ、ローショット学習、ロングテール分類、アウト・オブ・ディストリビューションの一般化といった挑戦的なシナリオにおいて、我々の手法の有効性が示された。
特に,本手法はKgCoOpを5.10%,PromptSRCを2.13%,正規化法を2.13%上回る。
関連論文リスト
- Semantic-guided Fine-tuning of Foundation Model for Long-tailed Visual Recognition [38.74388860692423]
長期視覚認識のための基礎モデルのセマンティック誘導微調整法(セージ)を提案する。
クラス記述をセマンティックガイダンスとして統合したSG-Adapterを導入し,ビジュアルエンコーダの微調整を指導する。
ベンチマークデータセットの実験は、長期学習におけるパフォーマンス向上における提案されたSageの有効性を示す。
論文 参考訳(メタデータ) (2025-07-17T05:47:19Z) - AttentionDrop: A Novel Regularization Method for Transformer Models [0.3262230127283452]
トランスフォーマーベースのアーキテクチャは、自然言語処理、コンピュータビジョン、音声処理において幅広いタスクで最先端のパフォーマンスを達成する。
しかし、その膨大な能力は、特にトレーニングデータに制限やノイズがある場合、過度に適合する。
本研究は,自己意識分布を直接操作する統一正規化手法のファミリーを提案する。
論文 参考訳(メタデータ) (2025-04-16T13:51:16Z) - Efficient Transfer Learning for Video-language Foundation Models [13.166348605993292]
テキスト表現と視覚表現のアライメントを高めるために,パラメータ効率のよいマルチモーダルパティッシャ・テンポラル・アダプタ (MSTA) を提案する。
我々は,ゼロショット転送,少数ショット学習,ベース・ツー・ノーベル一般化,完全テンポラル学習という4つの課題にまたがるアプローチの有効性を評価する。
論文 参考訳(メタデータ) (2024-11-18T01:25:58Z) - Diffusing States and Matching Scores: A New Framework for Imitation Learning [16.941612670582522]
敵対的模倣学習は伝統的に、学習者と敵対的に選択されたコスト関数の間の2つのプレイヤーゼロサムゲームとしてフレーム化されている。
拡散モデルは、回帰を通じてスコア関数を訓練することだけを必要とするGANの非敵対的な代替品として登場した。
提案手法は, GANスタイルの模倣学習ベースラインと差別化なし模倣学習ベースラインの両方を, 連続制御問題に比較して優れていることを示す。
論文 参考訳(メタデータ) (2024-10-17T17:59:25Z) - Collapsed Language Models Promote Fairness [88.48232731113306]
偏りのある言語モデルはトークン表現と単語埋め込みの間に崩壊したアライメントを示す。
我々は,幅広い脱バイアス法において,公平性を効果的に向上する原理的な微調整法を設計する。
論文 参考訳(メタデータ) (2024-10-06T13:09:48Z) - Distilling Vision-Language Foundation Models: A Data-Free Approach via Prompt Diversification [49.41632476658246]
我々は、数十億レベルの画像テキストデータセットにアクセスすることなく、DFKDをVision-Language Foundation Modelsに拡張することについて議論する。
目的は,配当に依存しないダウンストリームタスクに対して,与えられたカテゴリ概念を学生モデルにカスタマイズすることである。
本稿では,多様なスタイルで画像合成を促進するために,3つの新しいプロンプト分岐法を提案する。
論文 参考訳(メタデータ) (2024-07-21T13:26:30Z) - Few-Shot Adversarial Prompt Learning on Vision-Language Models [62.50622628004134]
知覚不能な逆境摂動に対するディープニューラルネットワークの脆弱性は、広く注目を集めている。
それまでの努力は、相手の視覚的特徴をテキストの監督と整合させることで、ゼロショットの敵の堅牢性を達成した。
本稿では、限られたデータで入力シーケンスを適応させることで、対向性を大幅に向上させる、数ショットの対向的プロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-21T18:28:43Z) - POUF: Prompt-oriented unsupervised fine-tuning for large pre-trained
models [62.23255433487586]
モデルに微調整を施したり、ラベルのないターゲットデータにプロンプトを施したりするための教師なしの微調整フレームワークを提案する。
本稿では,プロンプトとターゲットデータから抽出した離散分布を整列させて,言語拡張視覚とマスキング言語モデルの両方に適用する方法を示す。
論文 参考訳(メタデータ) (2023-04-29T22:05:22Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z) - Explaining, Evaluating and Enhancing Neural Networks' Learned
Representations [2.1485350418225244]
より効率的で効率的な表現への障害ではなく、いかに説明可能性が助けになるかを示す。
我々は,2つの新しいスコアを定義して,潜伏埋め込みの難易度と難易度を評価する。
表現学習課題の訓練において,提案したスコアを制約として採用することで,モデルの下流性能が向上することを示す。
論文 参考訳(メタデータ) (2022-02-18T19:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。