論文の概要: Double Visual Defense: Adversarial Pre-training and Instruction Tuning for Improving Vision-Language Model Robustness
- arxiv url: http://arxiv.org/abs/2501.09446v1
- Date: Thu, 16 Jan 2025 10:20:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-17 15:10:13.061135
- Title: Double Visual Defense: Adversarial Pre-training and Instruction Tuning for Improving Vision-Language Model Robustness
- Title(参考訳): ダブルビジュアルディフェンス:視覚言語モデルロバストネス改善のための対向的事前訓練と指導チューニング
- Authors: Zeyu Wang, Cihang Xie, Brian Bartoldson, Bhavya Kailkhura,
- Abstract要約: 本稿では,対角的視覚摂動に対する視覚言語モデルの堅牢性について検討する。
我々は、Webスケールデータを用いて、スクラッチから大規模な対角視言語事前学習を行う。
次に、対角的視覚的指導のチューニングを取り入れて防御を強化する。
- 参考スコア(独自算出の注目度): 30.934760041900386
- License:
- Abstract: This paper investigates the robustness of vision-language models against adversarial visual perturbations and introduces a novel ``double visual defense" to enhance this robustness. Unlike previous approaches that resort to lightweight adversarial fine-tuning of a pre-trained CLIP model, we perform large-scale adversarial vision-language pre-training from scratch using web-scale data. We then strengthen the defense by incorporating adversarial visual instruction tuning. The resulting models from each stage, $\Delta$CLIP and $\Delta^2$LLaVA, show substantially enhanced zero-shot robustness and set a new state-of-the-art in adversarial defense for vision-language models. For example, the adversarial robustness of $\Delta$CLIP surpasses that of the previous best models on ImageNet-1k by ~20%. %For example, $\Delta$CLIP surpasses the previous best models on ImageNet-1k by ~20% in terms of adversarial robustness. Similarly, compared to prior art, $\Delta^2$LLaVA brings a ~30% robustness improvement to image captioning task and a ~20% robustness improvement to visual question answering task. Furthermore, our models exhibit stronger zero-shot recognition capability, fewer hallucinations, and superior reasoning performance compared to baselines. Our project page is https://doublevisualdefense.github.io/.
- Abstract(参考訳): 本稿では, 対角的視覚摂動に対する視覚言語モデルの頑健性について検討し, この頑健性を高めるために, 新たな「ダブル・ビジュアル・ディフェンス」を導入する。
事前学習したCLIPモデルの軽量逆方向微調整を利用する従来のアプローチとは異なり、Webスケールデータを用いて、スクラッチから大規模逆方向の視覚言語事前学習を行う。
次に、対角的視覚的指導のチューニングを取り入れて防御を強化する。
それぞれのステージから得られた $\Delta$CLIP と $\Delta^2$LLaVA は、ゼロショットのロバスト性を大幅に向上させ、視覚言語モデルの対角防御に新たな最先端を設定した。
例えば、$\Delta$CLIPの逆のロバスト性は、ImageNet-1kの以前のベストモデルのロバスト性を約20%上回っている。
例えば$\Delta$CLIPは、ImageNet-1kの以前の最高のモデルよりも約20%高い。
同様に、以前の技術と比較して、$\Delta^2$LLaVAは画像キャプションタスクに約30%の堅牢性改善、視覚的質問応答タスクに約20%の堅牢性改善をもたらす。
さらに,本モデルでは,ゼロショット認識能力が向上し,幻覚が減少し,ベースラインに比べて推論性能が優れていた。
私たちのプロジェクトページはhttps://doublevisualdefense.github.io/です。
関連論文リスト
- Robust-LLaVA: On the Effectiveness of Large-Scale Robust Image Encoders for Multi-modal Large Language Models [26.656858396343726]
MLLM(Multi-modal Large Language Models)は、視覚言語タスクにおいて優れているが、視覚的逆境の摂動に弱いままである。
既存の手法では、ImageNet-scaleデータ上でCLIPビジョンエンコーダに制約付き逆調整を適用することにより、これらのリスクを軽減する方法が提案されている。
本稿では,大規模データに対して逆向きに事前学習された既存の視覚分類モデルを活用する方法を提案する。
論文 参考訳(メタデータ) (2025-02-03T17:59:45Z) - TAPT: Test-Time Adversarial Prompt Tuning for Robust Inference in Vision-Language Models [53.91006249339802]
視覚的対人攻撃に対するCLIPの推論ロバスト性を高めるため, TAPT(Test-Time Adversarial Prompt Tuning)と呼ばれる新しい防御手法を提案する。
TAPTは、CLIPの推論プロセスを堅牢化するために、防御的バイモーダル(テキストと視覚)のプロンプトを学習するテストタイムディフェンス手法である。
我々は、ImageNetなど10のゼロショットデータセットを含む11のベンチマークデータセットに対するTAPTの有効性を評価する。
論文 参考訳(メタデータ) (2024-11-20T08:58:59Z) - Pre-trained Model Guided Fine-Tuning for Zero-Shot Adversarial Robustness [52.9493817508055]
我々は,モデルがゼロショットの逆方向のロバスト性を高めるために,事前訓練されたモデル誘導逆方向の微調整(PMG-AFT)を提案する。
私たちのアプローチは、平均8.72%のクリーンな精度を継続的に改善します。
論文 参考訳(メタデータ) (2024-01-09T04:33:03Z) - Emu: Enhancing Image Generation Models Using Photogenic Needles in a
Haystack [75.00066365801993]
Webスケールの画像-テキストペアによるテキスト-画像モデルのトレーニングにより、テキストから幅広い視覚概念を生成することができる。
これらの事前訓練されたモデルは、高度に美的な画像を生成することに関して、しばしば課題に直面します。
本稿では,高度に視覚的に魅力的な画像のみを生成するために,事前学習されたモデルを誘導する品質チューニングを提案する。
論文 参考訳(メタデータ) (2023-09-27T17:30:19Z) - Robust Contrastive Language-Image Pre-training against Data Poisoning
and Backdoor Attacks [52.26631767748843]
ROCLIPは、ターゲットデータ中毒やバックドア攻撃に対して、マルチモーダル視覚言語モデルを堅牢に学習するための最初の効果的な方法である。
ROCLIPは、比較的大きく多様なランダムキャプションのプールを考慮することにより、有毒な撮像対の関連を効果的に破壊する。
実験の結果,ROCLIPは訓練前のCLIPモデルにおいて,最先端のデータ中毒やバックドア攻撃を未然に防ぐことができることがわかった。
論文 参考訳(メタデータ) (2023-03-13T04:49:46Z) - Revisiting Adversarial Training for ImageNet: Architectures, Training
and Generalization across Threat Models [52.86163536826919]
我々は、ViTsとConvNeXtsを比較したImageNetの敵対的トレーニングを再考する。
修正されたConvNeXt, ConvNeXt + ConvStemは、モデルパラメータの異なる範囲にまたがる最も堅牢な一般化をもたらす。
我々の ViT + ConvStem は、目に見えない脅威モデルに最高の一般化をもたらす。
論文 参考訳(メタデータ) (2023-03-03T11:53:01Z) - Understanding Zero-Shot Adversarial Robustness for Large-Scale Models [31.295249927085475]
ゼロショット対角ロバスト性に対する大規模モデルの強調問題を特定し,検討する。
本研究では,テキスト埋め込みと対向的視覚特徴を対照学習と整合させるテキスト誘導型対向的学習損失を提案する。
当社のアプローチは,ImageNetと15のゼロショットデータセットに対して,平均31ポイント以上の改善を達成し,CLIPに対するゼロショット対逆ロバスト性を大幅に向上させる。
論文 参考訳(メタデータ) (2022-12-14T04:08:56Z) - Towards Alternative Techniques for Improving Adversarial Robustness:
Analysis of Adversarial Training at a Spectrum of Perturbations [5.18694590238069]
逆行訓練(AT)とその変種は、逆行性摂動に対するニューラルネットワークの堅牢性を改善する進歩を先導している。
私たちは、$epsilon$の値のスペクトルに基づいてトレーニングされたモデルに焦点を当てています。
ATの代替改善は、そうでなければ1ドル(約1万2000円)も出なかったでしょう。
論文 参考訳(メタデータ) (2022-06-13T22:01:21Z) - On visual self-supervision and its effect on model robustness [9.313899406300644]
自己監督はモデルロバスト性を改善することができるが、悪魔が細部にあることが判明した。
自己監督型プレトレーニングは, 対人訓練の改善に効果があるが, 自己監督型プレトレーニングを対人訓練に組み込んだ場合, モデル堅牢性や精度には何の利益も与えない。
論文 参考訳(メタデータ) (2021-12-08T16:22:02Z) - Robust Pre-Training by Adversarial Contrastive Learning [120.33706897927391]
近年の研究では、敵の訓練と統合されると、自己監督型事前訓練が最先端の堅牢性につながることが示されている。
我々は,データ強化と対向的摂動の両面に整合した学習表現により,ロバストネスを意識した自己指導型事前学習を改善する。
論文 参考訳(メタデータ) (2020-10-26T04:44:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。