論文の概要: One Prompt Word is Enough to Boost Adversarial Robustness for
Pre-trained Vision-Language Models
- arxiv url: http://arxiv.org/abs/2403.01849v1
- Date: Mon, 4 Mar 2024 08:59:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 19:26:08.772823
- Title: One Prompt Word is Enough to Boost Adversarial Robustness for
Pre-trained Vision-Language Models
- Title(参考訳): 事前学習した視覚言語モデルに対する対向的ロバスト性を高めるには十分である
- Authors: Lin Li, Haoyan Guan, Jianing Qiu, Michael Spratling
- Abstract要約: 本研究は、テキストプロンプトの新たな視点から、視覚言語モデル(VLM)の対角的ロバスト性について研究する。
本稿では,VLMの頑健なテキストプロンプトを学習することで,敵攻撃に対するレジリエンスを向上させる手法を提案する。
提案手法はAPT (Adversarial Prompt Tuning) と名付けられ, 計算とデータ効率の両面において有効である。
- 参考スコア(独自算出の注目度): 7.308611036454601
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large pre-trained Vision-Language Models (VLMs) like CLIP, despite having
remarkable generalization ability, are highly vulnerable to adversarial
examples. This work studies the adversarial robustness of VLMs from the novel
perspective of the text prompt instead of the extensively studied model weights
(frozen in this work). We first show that the effectiveness of both adversarial
attack and defense are sensitive to the used text prompt. Inspired by this, we
propose a method to improve resilience to adversarial attacks by learning a
robust text prompt for VLMs. The proposed method, named Adversarial Prompt
Tuning (APT), is effective while being both computationally and data efficient.
Extensive experiments are conducted across 15 datasets and 4 data sparsity
schemes (from 1-shot to full training data settings) to show APT's superiority
over hand-engineered prompts and other state-of-the-art adaption methods. APT
demonstrated excellent abilities in terms of the in-distribution performance
and the generalization under input distribution shift and across datasets.
Surprisingly, by simply adding one learned word to the prompts, APT can
significantly boost the accuracy and robustness (epsilon=4/255) over the
hand-engineered prompts by +13% and +8.5% on average respectively. The
improvement further increases, in our most effective setting, to +26.4% for
accuracy and +16.7% for robustness. Code is available at
https://github.com/TreeLLi/APT.
- Abstract(参考訳): CLIPのような大規模トレーニング済みのビジョンランゲージモデル(VLM)は、優れた一般化能力があるにもかかわらず、敵の例に対して非常に脆弱である。
本研究は、広範に研究されたモデル重みではなく、テキストプロンプトの新たな視点から、VLMの対角的堅牢性を研究する。
まず,攻撃と防御の両方の有効性が,使用中のテキストプロンプトに敏感であることを示す。
そこで本研究では,VLMの頑健なテキストプロンプトを学習することで,敵攻撃に対するレジリエンスを向上させる手法を提案する。
提案手法はAPT (Adversarial Prompt Tuning) と名付けられ, 計算とデータ効率の両面において有効である。
15のデータセットと4つのデータ間隔スキーム(1ショットから完全なトレーニングデータ設定)で大規模な実験が行われ、手書きのプロンプトや他の最先端の適応方法よりもAPTの優位性を示す。
APTは、入力分布シフトおよびデータセット間の分散性能と一般化の点で優れた能力を示した。
驚くべきことに、1つの学習単語をプロンプトに追加することで、aptは平均で13%、+8.5%の精度とロバスト性(epsilon=4/255)を大幅に向上させることができる。
最も効果的な設定では、精度は+26.4%、堅牢性は+16.7%に向上した。
コードはhttps://github.com/TreeLLi/APT.comで入手できる。
関連論文リスト
- Adversarial Prompt Distillation for Vision-Language Models [25.07001647341082]
大規模な訓練済みビジョンランゲージモデル(VLM)は、敵の攻撃を受けやすいことが示されている。
事前訓練VLMの堅牢性向上のための有望なアプローチは、Adversarial Prompt Tuning (APT) である。
本稿では,APTと知識蒸留を併用し,CLIPの対向ロバスト性を高める,APD (Adversarial Prompt Distillation) という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-22T03:02:13Z) - TAPT: Test-Time Adversarial Prompt Tuning for Robust Inference in Vision-Language Models [53.91006249339802]
視覚的対人攻撃に対するCLIPの推論ロバスト性を高めるため, TAPT(Test-Time Adversarial Prompt Tuning)と呼ばれる新しい防御手法を提案する。
TAPTは、CLIPの推論プロセスを堅牢化するために、防御的バイモーダル(テキストと視覚)のプロンプトを学習するテストタイムディフェンス手法である。
我々は、ImageNetなど10のゼロショットデータセットを含む11のベンチマークデータセットに対するTAPTの有効性を評価する。
論文 参考訳(メタデータ) (2024-11-20T08:58:59Z) - Revisiting the Robust Generalization of Adversarial Prompt Tuning [4.033827046965844]
本稿では,画像とテキストの特徴のアライメントを高めるために,適応型一貫性誘導型適応型適応型適応プロンプトチューニング(CAPT)フレームワークを提案する。
我々は14のデータセットと4つのデータ空間をまたいだ実験を行い、CAPTが他の最先端の適応手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-05-18T02:54:41Z) - Revisiting the Power of Prompt for Visual Tuning [50.11465784194896]
本研究では,プロンプトとパッチトークンの相互関係について検討した。
プロンプトトークンはパッチトークンと高い相互情報を共有する傾向にあるという観測から着想を得て,下流トークンのプロトタイプを用いた初期化プロンプトを提案する。
本手法は, 自己指導型プレトレーニングの適応性を著しく向上させ, 少なくとも10%から30%のタスク性能向上を実現した。
論文 参考訳(メタデータ) (2024-02-04T07:49:02Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Don't Retrain, Just Rewrite: Countering Adversarial Perturbations by
Rewriting Text [40.491180210205556]
我々は、敵入力をインターセプトし、非敵入力に書き換えるモデルATINTERを提案する。
実験の結果,ATINTERは既存の防御手法よりも優れた敵の堅牢性を提供するのに有効であることが判明した。
論文 参考訳(メタデータ) (2023-05-25T19:42:51Z) - Robustifying Sentiment Classification by Maximally Exploiting Few
Counterfactuals [16.731183915325584]
そこで本研究では,トレーニングデータの少数のアノテーションのみを必要とする新しい手法を提案する。
また,手作業による正解率を1%に抑えることで,顕著な精度向上を実現した。
論文 参考訳(メタデータ) (2022-10-21T08:30:09Z) - Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language
Models [107.05966685291067]
テスト時間プロンプトチューニング (TPT) を提案し, 適応的なプロンプトを1つのテストサンプルで学習する。
TPTはCLIPのゼロショットトップ1の精度を平均3.6%改善する。
クロスデータセットの一般化を目に見えないカテゴリで評価する際、PTは追加のトレーニングデータを使用する最先端のアプローチと同等に機能する。
論文 参考訳(メタデータ) (2022-09-15T17:55:11Z) - PANDA: Prompt Transfer Meets Knowledge Distillation for Efficient Model Adaptation [89.0074567748505]
即時転送可能性(i)を正確に予測する新しい指標と,新しいPoTアプローチ(PANDA)を提案する。
提案手法は,各タスクおよびモデルサイズの平均スコアの2.3%(最大24.1%)でバニラPoTアプローチを一貫して上回り,その3。
論文 参考訳(メタデータ) (2022-08-22T09:14:14Z) - Distributed Adversarial Training to Robustify Deep Neural Networks at
Scale [100.19539096465101]
現在のディープニューラルネットワーク(DNN)は、入力に対する敵の摂動が分類を変更したり操作したりする敵の攻撃に対して脆弱である。
このような攻撃を防御するために、敵の訓練(AT)として知られる効果的なアプローチが、堅牢な訓練を緩和するために示されている。
複数のマシンにまたがって実装された大規模バッチ対逆トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-13T15:39:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。