論文の概要: BlueSuffix: Reinforced Blue Teaming for Vision-Language Models Against Jailbreak Attacks
- arxiv url: http://arxiv.org/abs/2410.20971v2
- Date: Wed, 12 Feb 2025 05:52:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:47:18.094260
- Title: BlueSuffix: Reinforced Blue Teaming for Vision-Language Models Against Jailbreak Attacks
- Title(参考訳): BlueSuffix: 脱獄攻撃に対するビジョンランゲージモデルのための強化されたブルーチーム
- Authors: Yunhan Zhao, Xiang Zheng, Lin Luo, Yige Li, Xingjun Ma, Yu-Gang Jiang,
- Abstract要約: 本稿では,ターゲットVLMをジェイルブレイク攻撃から防御するブルーチーム方式のBlueSuffixを提案する。
BlueSuffixには、1)jailbreakイメージに対する視覚的パーファイア、2)jailbreakテキストに対するテキストパーファイア、3)Blue-teamサフィックスジェネレータの3つの重要なコンポーネントが含まれている。
我々はBlueSuffixがベースラインディフェンスを著しく上回っていることを示す。
- 参考スコア(独自算出の注目度): 62.58434630634917
- License:
- Abstract: In this paper, we focus on black-box defense for VLMs against jailbreak attacks. Existing black-box defense methods are either unimodal or bimodal. Unimodal methods enhance either the vision or language module of the VLM, while bimodal methods robustify the model through text-image representation realignment. However, these methods suffer from two limitations: 1) they fail to fully exploit the cross-modal information, or 2) they degrade the model performance on benign inputs. To address these limitations, we propose a novel blue-team method BlueSuffix that defends target VLMs against jailbreak attacks without compromising its performance under black-box setting. BlueSuffix includes three key components: 1) a visual purifier against jailbreak images, 2) a textual purifier against jailbreak texts, and 3) a blue-team suffix generator using reinforcement fine-tuning for enhancing cross-modal robustness. We empirically show on four VLMs (LLaVA, MiniGPT-4, InstructionBLIP, and Gemini) and four safety benchmarks (Harmful Instruction, AdvBench, MM-SafetyBench, and RedTeam-2K) that BlueSuffix outperforms the baseline defenses by a significant margin. Our BlueSuffix opens up a promising direction for defending VLMs against jailbreak attacks. Code is available at https://github.com/Vinsonzyh/BlueSuffix.
- Abstract(参考訳): 本稿では,脱獄攻撃に対するVLMのブラックボックス防御に焦点をあてる。
既存のブラックボックス防御方法は、ユニモーダルまたはバイモーダルである。
ユニモーダル手法はVLMの視覚または言語モジュールを強化し、バイモーダル手法はテキストイメージ表現の認識を通じてモデルを堅牢化する。
しかし、これらの方法には2つの制限がある。
1) クロスモーダル情報を完全に活用できない場合
2) ベニグインプットのモデル性能を劣化させる。
これらの制約に対処するため、ブラックボックス設定下での性能を損なうことなく、ターゲットVLMをジェイルブレイク攻撃から防御するブルーチーム方式のBlueSuffixを提案する。
BlueSuffixには3つの重要なコンポーネントが含まれている。
1) 脱獄画像に対する視覚的浄化装置
2 脱獄テキストに対するテキスト清算装置、及び
3)クロスモーダルロバスト性を高めるための強化微調整を用いたブルーチームサフィックスジェネレータ。
実験では,4つのVLM(LLaVA, MiniGPT-4, InstructionBLIP, Gemini)と4つの安全性ベンチマーク(Harmful Instruction, AdvBench, MM-SafetyBench, RedTeam-2K)で,BlueSuffixがベースラインディフェンスを上回っていることを示す。
私たちのBlueSuffixは、VLMをジェイルブレイク攻撃から守るための有望な方向を開く。
コードはhttps://github.com/Vinsonzyh/BlueSuffix.comで入手できる。
関連論文リスト
- FlexLLM: Exploring LLM Customization for Moving Target Defense on Black-Box LLMs Against Jailbreak Attacks [7.31505609352525]
大規模言語モデル(LLM)の防衛は、有害なコンテンツを生成するためにこれらのシステムを利用する多数の攻撃者に対抗するために不可欠である。
モデルロバスト性を高めるために、デコードハイパーパラメータを変更する移動目標防御手法を提案する。
以上の結果から,テストした3つのモデルのうち,我々の防衛は脱獄攻撃に対して最も効果的であることが示された。
論文 参考訳(メタデータ) (2024-12-10T17:02:28Z) - Transferable Ensemble Black-box Jailbreak Attacks on Large Language Models [0.0]
我々は,様々なLSM-as-Attackerメソッドを組み込んだ新しいブラックボックス・ジェイルブレイク攻撃フレームワークを提案する。
本手法は,既存のジェイルブレイク研究と実践から得られた3つの重要な知見に基づいて設計されている。
論文 参考訳(メタデータ) (2024-10-31T01:55:33Z) - IDEATOR: Jailbreaking Large Vision-Language Models Using Themselves [67.30731020715496]
ブラックボックスのジェイルブレイク攻撃に対して,悪意のある画像テキストペアを自動生成する新しいジェイルブレイク手法 IDEATOR を提案する。
IDEATORはVLMを使用して、ターゲットとなるJailbreakテキストを作成し、最先端の拡散モデルによって生成されたJailbreakイメージと組み合わせる。
平均5.34クエリでMiniGPT-4をジェイルブレイクし、LLaVA、InstructBLIP、Meta's Chameleonに転送すると82%、88%、75%という高い成功率を達成した。
論文 参考訳(メタデータ) (2024-10-29T07:15:56Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。
LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。
本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文 参考訳(メタデータ) (2024-08-07T07:46:08Z) - Red Teaming GPT-4V: Are GPT-4V Safe Against Uni/Multi-Modal Jailbreak Attacks? [39.87609532392292]
この研究は、11の異なる安全ポリシーをカバーする1445の有害な質問を含む包括的なジェイルブレイク評価データセットを構築している。
このデータセットに基づいて、11の異なる大言語モデル(LLM)とMLLM(Multimodal Large Language Models)を用いて、広範囲にわたるレッドチーム実験を行う。
GPT4 と GPT-4V は,オープンソースの LLM や MLLM と比較して,ジェイルブレイク攻撃に対する堅牢性が高いことがわかった。
論文 参考訳(メタデータ) (2024-04-04T12:38:14Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - AutoDAN: Interpretable Gradient-Based Adversarial Attacks on Large
Language Models [55.748851471119906]
LLM(Large Language Models)の安全性の整合性は、手動のジェイルブレイク攻撃や(自動)敵攻撃によって損なわれる可能性がある。
最近の研究は、これらの攻撃に対する防御が可能であることを示唆している。敵攻撃は無限だが読めないジベリッシュプロンプトを生成し、難易度に基づくフィルタによって検出できる。
両攻撃の強度をマージする,解釈可能な勾配に基づく対向攻撃であるAutoDANを導入する。
論文 参考訳(メタデータ) (2023-10-23T17:46:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。