論文の概要: Robust-LLaVA: On the Effectiveness of Large-Scale Robust Image Encoders for Multi-modal Large Language Models
- arxiv url: http://arxiv.org/abs/2502.01576v1
- Date: Mon, 03 Feb 2025 17:59:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:59:14.503772
- Title: Robust-LLaVA: On the Effectiveness of Large-Scale Robust Image Encoders for Multi-modal Large Language Models
- Title(参考訳): Robust-LLaVA:マルチモーダル大言語モデルに対する大規模ロバスト画像エンコーダの有効性について
- Authors: Hashmat Shadab Malik, Fahad Shamshad, Muzammal Naseer, Karthik Nandakumar, Fahad Khan, Salman Khan,
- Abstract要約: MLLM(Multi-modal Large Language Models)は、視覚言語タスクにおいて優れているが、視覚的逆境の摂動に弱いままである。
既存の手法では、ImageNet-scaleデータ上でCLIPビジョンエンコーダに制約付き逆調整を適用することにより、これらのリスクを軽減する方法が提案されている。
本稿では,大規模データに対して逆向きに事前学習された既存の視覚分類モデルを活用する方法を提案する。
- 参考スコア(独自算出の注目度): 26.656858396343726
- License:
- Abstract: Multi-modal Large Language Models (MLLMs) excel in vision-language tasks but remain vulnerable to visual adversarial perturbations that can induce hallucinations, manipulate responses, or bypass safety mechanisms. Existing methods seek to mitigate these risks by applying constrained adversarial fine-tuning to CLIP vision encoders on ImageNet-scale data, ensuring their generalization ability is preserved. However, this limited adversarial training restricts robustness and broader generalization. In this work, we explore an alternative approach of leveraging existing vision classification models that have been adversarially pre-trained on large-scale data. Our analysis reveals two principal contributions: (1) the extensive scale and diversity of adversarial pre-training enables these models to demonstrate superior robustness against diverse adversarial threats, ranging from imperceptible perturbations to advanced jailbreaking attempts, without requiring additional adversarial training, and (2) end-to-end MLLM integration with these robust models facilitates enhanced adaptation of language components to robust visual features, outperforming existing plug-and-play methodologies on complex reasoning tasks. Through systematic evaluation across visual question-answering, image captioning, and jail-break attacks, we demonstrate that MLLMs trained with these robust models achieve superior adversarial robustness while maintaining favorable clean performance. Our framework achieves 2x and 1.5x average robustness gains in captioning and VQA tasks, respectively, and delivers over 10% improvement against jailbreak attacks. Code and pretrained models will be available at https://github.com/HashmatShadab/Robust-LLaVA.
- Abstract(参考訳): MLLM(Multi-modal Large Language Models)は視覚言語タスクに優れるが、幻覚を誘発したり、反応を操作したり、安全メカニズムをバイパスしたりできる視覚的敵の摂動に弱いままである。
既存の手法では、ImageNet-scaleデータ上にCLIPビジョンエンコーダに制約付き対向微調整を適用し、それらの一般化能力を確実に保持することで、これらのリスクを軽減しようとしている。
しかし、この制限された敵の訓練は、堅牢性とより広範な一般化を制限する。
本研究では,大規模データに対して逆向きに事前学習された既存の視覚分類モデルを活用するための代替手法について検討する。
分析の結果,(1) 敵対的事前学習の大規模化と多様性により, 複雑な推論タスクにおける既存プラグイン・アンド・プレイ手法よりも優れた言語コンポーネントの適応が促進され, 複雑な推論タスクにおける既存のプラグイン・アンド・プレイ手法よりも優れていることがわかった。
視覚的問合せ,イメージキャプション,ジェイルブレイク攻撃の系統的評価を通じて,これらの頑健なモデルで訓練されたMLLMは,良好なクリーンパフォーマンスを維持しつつ,優れた対向的堅牢性を実現することを実証した。
本フレームワークは,それぞれキャプションおよびVQAタスクにおける平均ロバスト性向上率を2倍,1.5倍に向上し,ジェイルブレイク攻撃に対する10%以上の改善を実現している。
コードと事前トレーニングされたモデルはhttps://github.com/HashmatShadab/Robust-LLaVA.comで入手できる。
関連論文リスト
- Robustness of Large Language Models Against Adversarial Attacks [5.312946761836463]
GPT LLMファミリーのロバスト性に関する総合的研究を報告する。
我々は2つの異なる評価手法を用いてレジリエンスを評価する。
実験により,これらのモデルのロバスト性は著しく変化し,文字レベルと意味レベルの両方の敵攻撃に対する脆弱性の程度が変化することが示された。
論文 参考訳(メタデータ) (2024-12-22T13:21:15Z) - Robust image classification with multi-modal large language models [4.709926629434273]
逆の例では、ディープニューラルネットワークが不正確な予測を高い信頼性で行う可能性がある。
これらの脆弱性を軽減するために、事前にモデルを強化するために、敵の訓練と検出に基づく防御が提案されている。
本稿では,これらの防衛を多モード情報と組み合わせ,補完する新しい防衛手法であるMulti-Shieldを提案する。
論文 参考訳(メタデータ) (2024-12-13T18:49:25Z) - Doubly-Universal Adversarial Perturbations: Deceiving Vision-Language Models Across Both Images and Text with a Single Perturbation [15.883062174902093]
VLM(Large Vision-Language Models)は、視覚エンコーダとLLM(Large Language Model)を統合することで、マルチモーダルタスクにまたがる顕著な性能を示す。
VLMに特化して設計された新しいUAPについて紹介する:Douubly-Universal Adversarial Perturbation (Douubly-UAP)
論文 参考訳(メタデータ) (2024-12-11T05:23:34Z) - AI Safety in Practice: Enhancing Adversarial Robustness in Multimodal Image Captioning [0.0]
視覚データとテキストデータを組み合わせたマルチモーダル機械学習モデルは、ますます重要なアプリケーションにデプロイされている。
本稿では,マルチモーダル画像キャプションモデルの敵攻撃に対する堅牢性を高めるための効果的な戦略を提案する。
論文 参考訳(メタデータ) (2024-07-30T20:28:31Z) - Efficient Adversarial Training in LLMs with Continuous Attacks [99.5882845458567]
大規模言語モデル(LLM)は、安全ガードレールをバイパスできる敵攻撃に対して脆弱である。
本稿では,2つの損失からなる高速対向訓練アルゴリズム(C-AdvUL)を提案する。
C-AdvIPOは、対向的に堅牢なアライメントのためのユーティリティデータを必要としない、対向型のIPOである。
論文 参考訳(メタデータ) (2024-05-24T14:20:09Z) - Machine Vision Therapy: Multimodal Large Language Models Can Enhance Visual Robustness via Denoising In-Context Learning [67.0609518552321]
本稿では,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。
復調ラベルを微調整することにより、教師なしの方法で学習モデルの性能を高めることができる。
論文 参考訳(メタデータ) (2023-12-05T07:29:14Z) - Set-level Guidance Attack: Boosting Adversarial Transferability of
Vision-Language Pre-training Models [52.530286579915284]
本稿では,視覚言語事前学習モデルの対角移動可能性について検討する。
伝達性劣化は、部分的にはクロスモーダル相互作用のアンダーユース化によって引き起こされる。
本稿では,高度に伝達可能なSGA(Set-level Guidance Attack)を提案する。
論文 参考訳(メタデータ) (2023-07-26T09:19:21Z) - Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。
我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。
本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文 参考訳(メタデータ) (2023-06-22T22:13:03Z) - On Evaluating Adversarial Robustness of Large Vision-Language Models [64.66104342002882]
大規模視覚言語モデル(VLM)のロバスト性を,最も現実的で高リスクな環境で評価する。
特に,CLIP や BLIP などの事前学習モデルに対して,まず攻撃対象のサンプルを作成する。
これらのVLM上のブラックボックスクエリは、ターゲットの回避の効果をさらに向上させることができる。
論文 参考訳(メタデータ) (2023-05-26T13:49:44Z) - Robust Pre-Training by Adversarial Contrastive Learning [120.33706897927391]
近年の研究では、敵の訓練と統合されると、自己監督型事前訓練が最先端の堅牢性につながることが示されている。
我々は,データ強化と対向的摂動の両面に整合した学習表現により,ロバストネスを意識した自己指導型事前学習を改善する。
論文 参考訳(メタデータ) (2020-10-26T04:44:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。