論文の概要: BlueSuffix: Reinforced Blue Teaming for Vision-Language Models Against Jailbreak Attacks
- arxiv url: http://arxiv.org/abs/2410.20971v1
- Date: Mon, 28 Oct 2024 12:43:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:18:56.341995
- Title: BlueSuffix: Reinforced Blue Teaming for Vision-Language Models Against Jailbreak Attacks
- Title(参考訳): BlueSuffix: 脱獄攻撃に対するビジョンランゲージモデルのための強化されたブルーチーム
- Authors: Yunhan Zhao, Xiang Zheng, Lin Luo, Yige Li, Xingjun Ma, Yu-Gang Jiang,
- Abstract要約: VLM(Vision-Language Models)は、脱獄攻撃に弱いことが示されている。
我々は,ブラックボックスターゲットのVLMを,その性能を損なうことなくジェイルブレイク攻撃から防御する,新しいブルーチーム方式のBlueSuffixを提案する。
- 参考スコア(独自算出の注目度): 62.58434630634917
- License:
- Abstract: Despite their superb multimodal capabilities, Vision-Language Models (VLMs) have been shown to be vulnerable to jailbreak attacks, which are inference-time attacks that induce the model to output harmful responses with tricky prompts. It is thus essential to defend VLMs against potential jailbreaks for their trustworthy deployment in real-world applications. In this work, we focus on black-box defense for VLMs against jailbreak attacks. Existing black-box defense methods are either unimodal or bimodal. Unimodal methods enhance either the vision or language module of the VLM, while bimodal methods robustify the model through text-image representation realignment. However, these methods suffer from two limitations: 1) they fail to fully exploit the cross-modal information, or 2) they degrade the model performance on benign inputs. To address these limitations, we propose a novel blue-team method BlueSuffix that defends the black-box target VLM against jailbreak attacks without compromising its performance. BlueSuffix includes three key components: 1) a visual purifier against jailbreak images, 2) a textual purifier against jailbreak texts, and 3) a blue-team suffix generator fine-tuned via reinforcement learning for enhancing cross-modal robustness. We empirically show on three VLMs (LLaVA, MiniGPT-4, and Gemini) and two safety benchmarks (MM-SafetyBench and RedTeam-2K) that BlueSuffix outperforms the baseline defenses by a significant margin. Our BlueSuffix opens up a promising direction for defending VLMs against jailbreak attacks.
- Abstract(参考訳): 過度なマルチモーダル機能にもかかわらず、ヴィジュアル・ランゲージ・モデル(VLM)はジェイルブレイク攻撃に弱いことが示されている。
したがって、現実のアプリケーションに信頼できるデプロイを行うためには、VLMを潜在的ジェイルブレイクから守ることが不可欠である。
本研究は,脱獄攻撃に対するVLMのブラックボックス防御に焦点をあてる。
既存のブラックボックス防御方法は、ユニモーダルまたはバイモーダルである。
ユニモーダル手法はVLMの視覚または言語モジュールを強化し、バイモーダル手法はテキストイメージ表現の認識を通じてモデルを堅牢化する。
しかし、これらの方法には2つの制限がある。
1) クロスモーダル情報を完全に活用できない場合
2) ベニグインプットのモデル性能を劣化させる。
これらの制約に対処するために,ブラックボックスターゲットのVLMを,性能を損なうことなくジェイルブレイク攻撃から防御する,ブルーチーム方式のBlueSuffixを提案する。
BlueSuffixには3つの重要なコンポーネントが含まれている。
1) 脱獄画像に対する視覚的浄化装置
2 脱獄テキストに対するテキスト清算装置、及び
3) クロスモーダルロバスト性を高めるための強化学習により微調整された青チーム接尾辞発生装置。
実験では、3つのVLM(LLaVA, MiniGPT-4, Gemini)と2つの安全ベンチマーク(MM-SafetyBench, RedTeam-2K)でBlueSuffixがベースラインディフェンスを著しく上回っていることを示す。
私たちのBlueSuffixは、VLMをジェイルブレイク攻撃から守るための有望な方向を開く。
関連論文リスト
- Transferable Ensemble Black-box Jailbreak Attacks on Large Language Models [0.0]
我々は,様々なLSM-as-Attackerメソッドを組み込んだ新しいブラックボックス・ジェイルブレイク攻撃フレームワークを提案する。
本手法は,既存のジェイルブレイク研究と実践から得られた3つの重要な知見に基づいて設計されている。
論文 参考訳(メタデータ) (2024-10-31T01:55:33Z) - IDEATOR: Jailbreaking VLMs Using VLMs [68.4760494411687]
ブラックボックスのジェイルブレイク攻撃に対して,悪意のある画像テキストペアを自動生成する新しいジェイルブレイク手法 IDEATOR を提案する。
IDEATORはVLMを使用してジェイルブレイクテキストを生成し、最先端の拡散モデルを利用して対応するジェイルブレイク画像を生成する。
MiniGPT-4を94%の成功率でジェイルブレイクし、LLaVAとInstructBLIPにシームレスに移行し、それぞれ82%と88%という高い成功率を達成した。
論文 参考訳(メタデータ) (2024-10-29T07:15:56Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。
LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。
本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文 参考訳(メタデータ) (2024-08-07T07:46:08Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - AutoDAN: Interpretable Gradient-Based Adversarial Attacks on Large
Language Models [55.748851471119906]
LLM(Large Language Models)の安全性の整合性は、手動のジェイルブレイク攻撃や(自動)敵攻撃によって損なわれる可能性がある。
最近の研究は、これらの攻撃に対する防御が可能であることを示唆している。敵攻撃は無限だが読めないジベリッシュプロンプトを生成し、難易度に基づくフィルタによって検出できる。
両攻撃の強度をマージする,解釈可能な勾配に基づく対向攻撃であるAutoDANを導入する。
論文 参考訳(メタデータ) (2023-10-23T17:46:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。