論文の概要: Securing Vision-Language Models with a Robust Encoder Against Jailbreak and Adversarial Attacks
- arxiv url: http://arxiv.org/abs/2409.07353v1
- Date: Wed, 11 Sep 2024 15:39:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-12 14:03:35.639624
- Title: Securing Vision-Language Models with a Robust Encoder Against Jailbreak and Adversarial Attacks
- Title(参考訳): 脱獄・敵攻撃に対するロバストエンコーダを用いた視覚言語モデルのセキュア化
- Authors: Md Zarif Hossain, Ahmed Imteaj,
- Abstract要約: LVLM(Large Vision-Language Models)は、視覚言語タスクに優れたAIである。
ジェイルブレイクは安全プロトコルをバイパスし、モデルが誤解を招くまたは有害な応答を発生させる。
シームズアーキテクチャを利用してCLIPビジョンエンコーダを逆さまに微調整する新しい防御機構であるSim-CLIP+を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision-Language Models (LVLMs), trained on multimodal big datasets, have significantly advanced AI by excelling in vision-language tasks. However, these models remain vulnerable to adversarial attacks, particularly jailbreak attacks, which bypass safety protocols and cause the model to generate misleading or harmful responses. This vulnerability stems from both the inherent susceptibilities of LLMs and the expanded attack surface introduced by the visual modality. We propose Sim-CLIP+, a novel defense mechanism that adversarially fine-tunes the CLIP vision encoder by leveraging a Siamese architecture. This approach maximizes cosine similarity between perturbed and clean samples, facilitating resilience against adversarial manipulations. Sim-CLIP+ offers a plug-and-play solution, allowing seamless integration into existing LVLM architectures as a robust vision encoder. Unlike previous defenses, our method requires no structural modifications to the LVLM and incurs minimal computational overhead. Sim-CLIP+ demonstrates effectiveness against both gradient-based adversarial attacks and various jailbreak techniques. We evaluate Sim-CLIP+ against three distinct jailbreak attack strategies and perform clean evaluations using standard downstream datasets, including COCO for image captioning and OKVQA for visual question answering. Extensive experiments demonstrate that Sim-CLIP+ maintains high clean accuracy while substantially improving robustness against both gradient-based adversarial attacks and jailbreak techniques. Our code and robust vision encoders are available at https://github.com/speedlab-git/Robust-Encoder-against-Jailbreak-attack.git.
- Abstract(参考訳): マルチモーダルなビッグデータに基づいてトレーニングされたLVLM(Large Vision-Language Models)は、視覚言語タスクに優れたAIを備えている。
しかし、これらのモデルは敵の攻撃、特にジェイルブレイク攻撃に弱いままであり、安全プロトコルをバイパスし、モデルが誤解を招くまたは有害な応答を発生させる。
この脆弱性は、LLMの固有の感受性と、視覚的モダリティによって導入された攻撃面の拡張の両方に起因している。
シームズアーキテクチャを利用してCLIPビジョンエンコーダを逆さまに微調整する新しい防御機構であるSim-CLIP+を提案する。
このアプローチは、乱れたサンプルとクリーンなサンプルのコサイン類似性を最大化し、敵の操作に対するレジリエンスを促進する。
Sim-CLIP+はプラグイン・アンド・プレイのソリューションを提供し、堅牢な視覚エンコーダとして既存のLVLMアーキテクチャへのシームレスな統合を可能にする。
従来の防衛法とは異なり,LVLMの構造変更は不要であり,計算オーバーヘッドは最小限である。
Sim-CLIP+は、勾配に基づく敵攻撃と様々なジェイルブレイク技術の両方に対して効果を示す。
我々はSim-CLIP+を3つの異なるジェイルブレイク攻撃戦略に対して評価し、イメージキャプションのCOCOや視覚的質問応答のOKVQAを含む標準下流データセットを用いてクリーンな評価を行う。
大規模な実験により、Sim-CLIP+は高い清潔さを維持しつつ、勾配に基づく敵攻撃と脱獄技術の両方に対する堅牢性を大幅に向上することが示された。
私たちのコードと堅牢なビジョンエンコーダはhttps://github.com/speedlab-git/Robust-Encoder-against-Jailbreak- attack.gitで利用可能です。
関連論文リスト
- A Realistic Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。
私たちの脅威モデルは、パープレキシティの制約を組み合わせることで、ジェイルブレイクが自然のテキストからどれだけ逸脱するかを測定します。
我々は、この新しい現実的な脅威モデルに人気のある攻撃を適用する。
論文 参考訳(メタデータ) (2024-10-21T17:27:01Z) - HSF: Defending against Jailbreak Attacks with Hidden State Filtering [14.031010511732008]
隠れ状態フィルタ(HSF)に基づくジェイルブレイク攻撃防御戦略を提案する。
HSFは、推論プロセスが始まる前に、モデルが相手の入力をプリエンプティブに識別し、拒否することを可能にする。
不正なユーザクエリに対する応答を最小限に抑えながら、Jailbreak攻撃の成功率を大幅に低下させる。
論文 参考訳(メタデータ) (2024-08-31T06:50:07Z) - Sim-CLIP: Unsupervised Siamese Adversarial Fine-Tuning for Robust and Semantically-Rich Vision-Language Models [0.0]
広範に使用されているCLIPビジョンエンコーダの敵攻撃に対する堅牢性を向上する,教師なし逆向き微調整手法であるSim-CLIPを提案する。
Sim-CLIPは、コサイン類似性の損失を伴うSiameseアーキテクチャを利用することで、大きなバッチサイズや運動量エンコーダを必要とせずに、意味的に意味があり、攻撃耐性のある視覚表現を学習する。
論文 参考訳(メタデータ) (2024-07-20T19:53:52Z) - AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens [83.08119913279488]
本稿では,ジェイルブレイク攻撃と防衛技術における依存関係の体系的解析について述べる。
包括的な、自動化された、論理的な3つのフレームワークを提案します。
このアンサンブル・ジェイルブレイク・アタックと防衛の枠組みは,既存の研究を著しく上回る結果となった。
論文 参考訳(メタデータ) (2024-06-06T07:24:41Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - AutoDAN: Interpretable Gradient-Based Adversarial Attacks on Large
Language Models [55.748851471119906]
LLM(Large Language Models)の安全性の整合性は、手動のジェイルブレイク攻撃や(自動)敵攻撃によって損なわれる可能性がある。
最近の研究は、これらの攻撃に対する防御が可能であることを示唆している。敵攻撃は無限だが読めないジベリッシュプロンプトを生成し、難易度に基づくフィルタによって検出できる。
両攻撃の強度をマージする,解釈可能な勾配に基づく対向攻撃であるAutoDANを導入する。
論文 参考訳(メタデータ) (2023-10-23T17:46:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。