論文の概要: Adversarial Prompt Distillation for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2411.15244v2
- Date: Tue, 15 Apr 2025 01:57:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:08:41.432122
- Title: Adversarial Prompt Distillation for Vision-Language Models
- Title(参考訳): 視覚・言語モデルに対する対向型プロンプト蒸留法
- Authors: Lin Luo, Xin Wang, Bojia Zi, Shihao Zhao, Xingjun Ma, Yu-Gang Jiang,
- Abstract要約: Adversarial Prompt Tuning (APT) は、迅速なチューニングの過程において、相手のトレーニングを適用する。
APDは、マルチモーダルな知識伝達と統合してAPTを強化するバイモーダルな知識蒸留フレームワークである。
複数のベンチマークデータセットに対する大規模な実験は、現在最先端のAPT法よりもAPD法の方が優れていることを示す。
- 参考スコア(独自算出の注目度): 63.24270920122456
- License:
- Abstract: Large pre-trained Vision-Language Models (VLMs) such as Contrastive Language-Image Pre-training (CLIP) have been shown to be susceptible to adversarial attacks, raising concerns about their deployment in safety-critical applications like autonomous driving and medical diagnosis. One promising approach for robustifying pre-trained VLMs is Adversarial Prompt Tuning (APT), which applies adversarial training during the process of prompt tuning. However, existing APT methods are mostly single-modal methods that design prompt(s) for only the visual or textual modality, limiting their effectiveness in either robustness or clean accuracy. In this work, we propose Adversarial Prompt Distillation (APD), a bimodal knowledge distillation framework that enhances APT by integrating it with multi-modal knowledge transfer. APD optimizes prompts for both visual and textual modalities while distilling knowledge from a clean pre-trained teacher CLIP model. Extensive experiments on multiple benchmark datasets demonstrate the superiority of our APD method over the current state-of-the-art APT methods in terms of both adversarial robustness and clean accuracy. The effectiveness of APD also validates the possibility of using a non-robust teacher to improve the generalization and robustness of fine-tuned VLMs.
- Abstract(参考訳): Contrastive Language-Image Pre-Training (CLIP) のような大規模な事前訓練型視覚言語モデル(VLM)は、敵の攻撃を受けやすいことが示されている。
事前訓練されたVLMを堅牢化するための有望なアプローチとして、APT(Adversarial Prompt Tuning)がある。
しかし、既存のAPT法は、主に視覚的あるいはテキスト的モダリティのみにプロンプトを設計する単一モーダル法であり、ロバスト性またはクリーンな精度で有効性を制限している。
本研究では,多モーダルな知識伝達と統合してAPTを強化するバイモーダルな知識蒸留フレームワークであるAdversarial Prompt Distillation (APD)を提案する。
APDは、クリーンな事前学習されたCLIPモデルから知識を抽出しながら、視覚とテキストの両方のモダリティのプロンプトを最適化する。
複数のベンチマークデータセットに対する大規模な実験は、現在の最先端のAPT法よりも、対向的ロバスト性とクリーンな精度の両面において、APD法の方が優れていることを示した。
APDの有効性はまた、微調整VLMの一般化と堅牢性を改善するために、非ロマンス教師を使うことの可能性を検証する。
関連論文リスト
- TAPT: Test-Time Adversarial Prompt Tuning for Robust Inference in Vision-Language Models [53.91006249339802]
視覚的対人攻撃に対するCLIPの推論ロバスト性を高めるため, TAPT(Test-Time Adversarial Prompt Tuning)と呼ばれる新しい防御手法を提案する。
TAPTは、CLIPの推論プロセスを堅牢化するために、防御的バイモーダル(テキストと視覚)のプロンプトを学習するテストタイムディフェンス手法である。
我々は、ImageNetなど10のゼロショットデータセットを含む11のベンチマークデータセットに対するTAPTの有効性を評価する。
論文 参考訳(メタデータ) (2024-11-20T08:58:59Z) - The Pitfalls and Promise of Conformal Inference Under Adversarial Attacks [90.52808174102157]
医療画像や自律運転などの安全クリティカルな応用においては、高い敵の堅牢性を維持し、潜在的敵の攻撃から保護することが不可欠である。
敵対的に訓練されたモデルに固有の不確実性に関して、注目すべき知識ギャップが残っている。
本研究では,共形予測(CP)の性能を標準対向攻撃の文脈で検証することにより,ディープラーニングモデルの不確実性について検討する。
論文 参考訳(メタデータ) (2024-05-14T18:05:19Z) - One Prompt Word is Enough to Boost Adversarial Robustness for
Pre-trained Vision-Language Models [7.308611036454601]
本研究は、テキストプロンプトの新たな視点から、視覚言語モデル(VLM)の対角的ロバスト性について研究する。
本稿では,VLMの頑健なテキストプロンプトを学習することで,敵攻撃に対するレジリエンスを向上させる手法を提案する。
提案手法はAPT (Adversarial Prompt Tuning) と名付けられ, 計算とデータ効率の両面において有効である。
論文 参考訳(メタデータ) (2024-03-04T08:59:32Z) - Adversarial Prompt Tuning for Vision-Language Models [86.5543597406173]
AdvPT(Adversarial Prompt Tuning)は、視覚言語モデル(VLM)における画像エンコーダの対向ロバスト性を高める技術である。
我々は,AdvPTが白箱攻撃や黒箱攻撃に対する抵抗性を向上し,既存の画像処理による防御技術と組み合わせることで相乗効果を示すことを示した。
論文 参考訳(メタデータ) (2023-11-19T07:47:43Z) - Visual-Attribute Prompt Learning for Progressive Mild Cognitive
Impairment Prediction [27.261602207491244]
本稿では,マルチモーダルな特徴を高速な微調整で抽出・融合するトランスフォーマーネットワークを提案する。
詳しくは、まずAD診断タスクのプロンプトなしでVAP-Formerを事前訓練し、pMCI検出タスクのモデルをPTで微調整する。
次に、視覚的プロンプトのための新しいグローバルプロンプトトークンを提案し、マルチモーダル表現に対するグローバルガイダンスを提供する。
論文 参考訳(メタデータ) (2023-10-22T02:49:53Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - MuDPT: Multi-modal Deep-symphysis Prompt Tuning for Large Pre-trained Vision-Language Models [12.397136690734865]
マルチモーダル・ディープ・サイコフィック・プロンプト・タニングと呼ばれる新しいアプローチを提案し,その手法を MuDPT と呼ぶ。
MuDPTは、モデルに依存しない変換ネットワークを学習し、深い階層的な双方向のプロンプト融合を可能にすることで、独立したマルチモーダル・プロンプトチューニングを拡張している。
最先端の手法と比較すると, MuDPT は認識能力と一般化能力が向上し, マージンは明らかである。
論文 参考訳(メタデータ) (2023-06-20T09:15:52Z) - Robust Pre-Training by Adversarial Contrastive Learning [120.33706897927391]
近年の研究では、敵の訓練と統合されると、自己監督型事前訓練が最先端の堅牢性につながることが示されている。
我々は,データ強化と対向的摂動の両面に整合した学習表現により,ロバストネスを意識した自己指導型事前学習を改善する。
論文 参考訳(メタデータ) (2020-10-26T04:44:43Z) - Boosting Adversarial Training with Hypersphere Embedding [53.75693100495097]
敵対的訓練は、ディープラーニングモデルに対する敵対的攻撃に対する最も効果的な防御の1つである。
本研究では,超球埋め込み機構をATプロシージャに組み込むことを提唱する。
我々は,CIFAR-10 と ImageNet データセットに対する幅広い敵対攻撃の下で本手法を検証した。
論文 参考訳(メタデータ) (2020-02-20T08:42:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。