論文の概要: Adversarial Prompt Distillation for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2411.15244v1
- Date: Fri, 22 Nov 2024 03:02:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:23:49.303206
- Title: Adversarial Prompt Distillation for Vision-Language Models
- Title(参考訳): 視覚・言語モデルに対する対向型プロンプト蒸留法
- Authors: Lin Luo, Xin Wang, Bojia Zi, Shihao Zhao, Xingjun Ma,
- Abstract要約: 大規模な訓練済みビジョンランゲージモデル(VLM)は、敵の攻撃を受けやすいことが示されている。
事前訓練VLMの堅牢性向上のための有望なアプローチは、Adversarial Prompt Tuning (APT) である。
本稿では,APTと知識蒸留を併用し,CLIPの対向ロバスト性を高める,APD (Adversarial Prompt Distillation) という新しい手法を提案する。
- 参考スコア(独自算出の注目度): 25.07001647341082
- License:
- Abstract: Large pre-trained Vision-Language Models (VLMs) such as Contrastive Language-Image Pre-Training (CLIP) have been shown to be susceptible to adversarial attacks, raising concerns about their deployment in safety-critical scenarios like autonomous driving and medical diagnosis. One promising approach for improving the robustness of pre-trained VLMs is Adversarial Prompt Tuning (APT), which combines adversarial training with prompt tuning. However, existing APT methods are mostly single-modal methods that design prompt(s) for only the visual or textual modality, limiting their effectiveness in either robustness or clean accuracy. In this work, we propose a novel method called Adversarial Prompt Distillation (APD) that combines APT with knowledge distillation to boost the adversarial robustness of CLIP. Specifically, APD is a bimodal method that adds prompts for both the visual and textual modalities while leveraging a cleanly pre-trained teacher CLIP model to distill and boost the performance of the student CLIP model on downstream tasks. Extensive experiments on multiple benchmark datasets demonstrate the superiority of our APD over the current state-of-the-art APT methods in terms of both natural and adversarial performances. The effectiveness of our APD method validates the possibility of using a non-robust teacher to improve the generalization and robustness of VLMs.
- Abstract(参考訳): Contrastive Language-Image Pre-Training (CLIP) のような、訓練済みの大規模な視覚言語モデル(VLM)は、敵の攻撃を受けやすいことが示されており、自律運転や医療診断といった安全上重要なシナリオへの展開に対する懸念が高まっている。
事前訓練されたVLMの堅牢性を改善するための有望なアプローチの1つは、対向訓練と即時チューニングを組み合わせたAPT(Adversarial Prompt Tuning)である。
しかし、既存のAPT法は、主に視覚的あるいはテキスト的モダリティのみにプロンプトを設計する単一モーダル法であり、ロバスト性またはクリーンな精度で有効性を制限している。
本稿では,APTと知識蒸留を併用してCLIPの対向性を高める,APD (Adversarial Prompt Distillation) という新しい手法を提案する。
特に、APDは視覚的・テキスト的モダリティの両方にプロンプトを付加するバイモーダル手法であり、清潔に訓練された教師CLIPモデルを活用して、下流タスクにおける学生CLIPモデルの性能を向上する。
複数のベンチマークデータセットに対する大規模な実験は、自然と敵対の両方のパフォーマンスの観点から、現在の最先端のAPT手法よりもAPDの方が優れていることを示す。
提案手法の有効性は,VLMの一般化とロバスト性を向上させるために,非ロバスト教師を用いる可能性を検証するものである。
関連論文リスト
- TAPT: Test-Time Adversarial Prompt Tuning for Robust Inference in Vision-Language Models [53.91006249339802]
視覚的対人攻撃に対するCLIPの推論ロバスト性を高めるため, TAPT(Test-Time Adversarial Prompt Tuning)と呼ばれる新しい防御手法を提案する。
TAPTは、CLIPの推論プロセスを堅牢化するために、防御的バイモーダル(テキストと視覚)のプロンプトを学習するテストタイムディフェンス手法である。
我々は、ImageNetなど10のゼロショットデータセットを含む11のベンチマークデータセットに対するTAPTの有効性を評価する。
論文 参考訳(メタデータ) (2024-11-20T08:58:59Z) - The Pitfalls and Promise of Conformal Inference Under Adversarial Attacks [90.52808174102157]
医療画像や自律運転などの安全クリティカルな応用においては、高い敵の堅牢性を維持し、潜在的敵の攻撃から保護することが不可欠である。
敵対的に訓練されたモデルに固有の不確実性に関して、注目すべき知識ギャップが残っている。
本研究では,共形予測(CP)の性能を標準対向攻撃の文脈で検証することにより,ディープラーニングモデルの不確実性について検討する。
論文 参考訳(メタデータ) (2024-05-14T18:05:19Z) - One Prompt Word is Enough to Boost Adversarial Robustness for
Pre-trained Vision-Language Models [7.308611036454601]
本研究は、テキストプロンプトの新たな視点から、視覚言語モデル(VLM)の対角的ロバスト性について研究する。
本稿では,VLMの頑健なテキストプロンプトを学習することで,敵攻撃に対するレジリエンスを向上させる手法を提案する。
提案手法はAPT (Adversarial Prompt Tuning) と名付けられ, 計算とデータ効率の両面において有効である。
論文 参考訳(メタデータ) (2024-03-04T08:59:32Z) - Adversarial Prompt Tuning for Vision-Language Models [86.5543597406173]
AdvPT(Adversarial Prompt Tuning)は、視覚言語モデル(VLM)における画像エンコーダの対向ロバスト性を高める技術である。
我々は,AdvPTが白箱攻撃や黒箱攻撃に対する抵抗性を向上し,既存の画像処理による防御技術と組み合わせることで相乗効果を示すことを示した。
論文 参考訳(メタデータ) (2023-11-19T07:47:43Z) - Visual-Attribute Prompt Learning for Progressive Mild Cognitive
Impairment Prediction [27.261602207491244]
本稿では,マルチモーダルな特徴を高速な微調整で抽出・融合するトランスフォーマーネットワークを提案する。
詳しくは、まずAD診断タスクのプロンプトなしでVAP-Formerを事前訓練し、pMCI検出タスクのモデルをPTで微調整する。
次に、視覚的プロンプトのための新しいグローバルプロンプトトークンを提案し、マルチモーダル表現に対するグローバルガイダンスを提供する。
論文 参考訳(メタデータ) (2023-10-22T02:49:53Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - MuDPT: Multi-modal Deep-symphysis Prompt Tuning for Large Pre-trained Vision-Language Models [12.397136690734865]
マルチモーダル・ディープ・サイコフィック・プロンプト・タニングと呼ばれる新しいアプローチを提案し,その手法を MuDPT と呼ぶ。
MuDPTは、モデルに依存しない変換ネットワークを学習し、深い階層的な双方向のプロンプト融合を可能にすることで、独立したマルチモーダル・プロンプトチューニングを拡張している。
最先端の手法と比較すると, MuDPT は認識能力と一般化能力が向上し, マージンは明らかである。
論文 参考訳(メタデータ) (2023-06-20T09:15:52Z) - Robust Pre-Training by Adversarial Contrastive Learning [120.33706897927391]
近年の研究では、敵の訓練と統合されると、自己監督型事前訓練が最先端の堅牢性につながることが示されている。
我々は,データ強化と対向的摂動の両面に整合した学習表現により,ロバストネスを意識した自己指導型事前学習を改善する。
論文 参考訳(メタデータ) (2020-10-26T04:44:43Z) - Boosting Adversarial Training with Hypersphere Embedding [53.75693100495097]
敵対的訓練は、ディープラーニングモデルに対する敵対的攻撃に対する最も効果的な防御の1つである。
本研究では,超球埋め込み機構をATプロシージャに組み込むことを提唱する。
我々は,CIFAR-10 と ImageNet データセットに対する幅広い敵対攻撃の下で本手法を検証した。
論文 参考訳(メタデータ) (2020-02-20T08:42:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。