論文の概要: Jailbreaking Multimodal Large Language Models via Shuffle Inconsistency
- arxiv url: http://arxiv.org/abs/2501.04931v1
- Date: Thu, 09 Jan 2025 02:47:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-10 14:00:48.454831
- Title: Jailbreaking Multimodal Large Language Models via Shuffle Inconsistency
- Title(参考訳): シャッフル不整合によるマルチモーダル大言語モデルの脱獄
- Authors: Shiji Zhao, Ranjie Duan, Fengxiang Wang, Chi Chen, Caixin Kang, Jialing Tao, YueFeng Chen, Hui Xue, Xingxing Wei,
- Abstract要約: MLLM(Multimodal Large Language Models)は目覚ましい性能を発揮し、商用アプリケーションで実用化されている。
ジェイルブレイク攻撃は安全メカニズムを回避し、MLLMの潜在的なリスクを発見することを目的としている。
本稿では,Shuffleの不整合を克服し,シャッフルランダム性を克服するため,SI-Attackというテキストイメージのジェイルブレイク攻撃を提案する。
- 参考スコア(独自算出の注目度): 26.71230146905402
- License:
- Abstract: Multimodal Large Language Models (MLLMs) have achieved impressive performance and have been put into practical use in commercial applications, but they still have potential safety mechanism vulnerabilities. Jailbreak attacks are red teaming methods that aim to bypass safety mechanisms and discover MLLMs' potential risks. Existing MLLMs' jailbreak methods often bypass the model's safety mechanism through complex optimization methods or carefully designed image and text prompts. Despite achieving some progress, they have a low attack success rate on commercial closed-source MLLMs. Unlike previous research, we empirically find that there exists a Shuffle Inconsistency between MLLMs' comprehension ability and safety ability for the shuffled harmful instruction. That is, from the perspective of comprehension ability, MLLMs can understand the shuffled harmful text-image instructions well. However, they can be easily bypassed by the shuffled harmful instructions from the perspective of safety ability, leading to harmful responses. Then we innovatively propose a text-image jailbreak attack named SI-Attack. Specifically, to fully utilize the Shuffle Inconsistency and overcome the shuffle randomness, we apply a query-based black-box optimization method to select the most harmful shuffled inputs based on the feedback of the toxic judge model. A series of experiments show that SI-Attack can improve the attack's performance on three benchmarks. In particular, SI-Attack can obviously improve the attack success rate for commercial MLLMs such as GPT-4o or Claude-3.5-Sonnet.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、目覚ましいパフォーマンスを達成し、商用アプリケーションで実用化されているが、潜在的な安全性メカニズムの脆弱性がある。
ジェイルブレイク攻撃(Jailbreak attack)は、安全メカニズムを回避し、MLLMの潜在的なリスクを発見することを目的としたレッドチーム方式である。
既存のMLLMのjailbreakメソッドは、複雑な最適化方法や慎重に設計された画像やテキストプロンプトを通じて、モデルの安全性メカニズムをバイパスすることが多い。
ある程度の進歩にもかかわらず、商用のクローズドソースMLLMに対する攻撃成功率は低い。
従来の研究と異なり、MLLMの理解能力と、シャッフルした有害な指示に対する安全性能力との間には、シャッフル不整合が存在することが実証的に確認されている。
すなわち、理解能力の観点から、MLLMは有害なテキストイメージの指示をうまく理解することができる。
しかし、安全能力の観点からは、シャッフルした有害な指示によって容易に回避でき、有害な応答をもたらす。
そこで我々は,SI-Attack というテキストイメージのジェイルブレイク攻撃を革新的に提案する。
具体的には、シャッフル不整合を完全に活用し、シャッフルランダム性を克服するために、有害判定モデルのフィードバックに基づいて最も有害なシャッフル入力を選択するために、クエリベースのブラックボックス最適化手法を適用する。
一連の実験により、SI-Attackは3つのベンチマークで攻撃のパフォーマンスを改善することができた。
特にSI-Attackは、GPT-4oやClaude-3.5-Sonnetのような商用MLLMの攻撃成功率を向上させることができる。
関連論文リスト
- Diversity Helps Jailbreak Large Language Models [16.34618038553998]
私たちは、大きな言語モデルが以前のコンテキストから逸脱する能力を活用する強力なjailbreakテクニックを発見しました。
LLMに以前の攻撃を逸脱して難読化するように指示するだけで、我々の手法は既存の手法よりも劇的に優れている。
この啓示は、現在のLLM安全性トレーニングにおいて重大な欠陥を露呈しており、既存の手法は脆弱性を取り除くのではなく、単に脆弱性を隠蔽するものであることを示唆している。
論文 参考訳(メタデータ) (2024-11-06T19:39:48Z) - Multi-round jailbreak attack on large language models [2.540971544359496]
私たちは"ジェイルブレイク"攻撃をよりよく理解するために、マルチラウンドのジェイルブレイクアプローチを導入します。
この方法は危険なプロンプトを書き換え、有害でない一連のサブクエストに分解する。
実験の結果,ラマ2-7Bは94%の成功率を示した。
論文 参考訳(メタデータ) (2024-10-15T12:08:14Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。
LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。
本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文 参考訳(メタデータ) (2024-08-07T07:46:08Z) - Refusing Safe Prompts for Multi-modal Large Language Models [36.276781604895454]
安全プロンプトに対する拒絶を誘導する最初の手法であるMLLM-Refusalを紹介する。
本稿では,MLLM-Refusalを制約付き最適化問題として定式化し,その解法を提案する。
4つのデータセットにわたる4つのMLLMに対してMLLM-Refusalを評価する。
論文 参考訳(メタデータ) (2024-07-12T07:18:05Z) - Jailbreak Vision Language Models via Bi-Modal Adversarial Prompt [60.54666043358946]
本稿では,テキストと視覚のプロンプトを協調的に最適化することにより,ジェイルブレイクを実行するバイモーダル・アドバイサル・プロンプト・アタック(BAP)を提案する。
特に,大規模言語モデルを用いてジェイルブレイクの失敗を分析し,テキストのプロンプトを洗練させるために連鎖推論を採用する。
論文 参考訳(メタデータ) (2024-06-06T13:00:42Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - Jailbreaking Attack against Multimodal Large Language Model [69.52466793164618]
本稿では,マルチモーダル大規模言語モデル(MLLM)に対するジェイルブレイク攻撃に焦点を当てた。
imgJP (emphimage Jailbreaking Prompt) の探索手法を提案する。
提案手法は, 生成したimgJPをジェイルブレイクモデルに転送できるため, 強いモデル伝達性を示す。
論文 参考訳(メタデータ) (2024-02-04T01:29:24Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。