論文の概要: GAMBIT: A Gamified Jailbreak Framework for Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2601.03416v1
- Date: Tue, 06 Jan 2026 21:09:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.072342
- Title: GAMBIT: A Gamified Jailbreak Framework for Multimodal Large Language Models
- Title(参考訳): GAMBIT:マルチモーダル大規模言語モデルのためのゲーミフィケーションジェイルブレイクフレームワーク
- Authors: Xiangdong Hu, Yangyang Jiang, Qin Hu, Xiaojun Jia,
- Abstract要約: 本稿では,ゲーム勝利の一環として,探索,意図の再構築,回答を行うモデルを駆動する新しいフレームワークを提案する。
GAMBITは高い攻撃成功率(ASR)を達成し、Gemini 2.5 Flashで92.13%、QvQ-MAXで91.20%、GPT-4oで85.87%に達した。
- 参考スコア(独自算出の注目度): 16.68943715789759
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have become widely deployed, yet their safety alignment remains fragile under adversarial inputs. Previous work has shown that increasing inference steps can disrupt safety mechanisms and lead MLLMs to generate attacker-desired harmful content. However, most existing attacks focus on increasing the complexity of the modified visual task itself and do not explicitly leverage the model's own reasoning incentives. This leads to them underperforming on reasoning models (Models with Chain-of-Thoughts) compared to non-reasoning ones (Models without Chain-of-Thoughts). If a model can think like a human, can we influence its cognitive-stage decisions so that it proactively completes a jailbreak? To validate this idea, we propose GAMBI} (Gamified Adversarial Multimodal Breakout via Instructional Traps), a novel multimodal jailbreak framework that decomposes and reassembles harmful visual semantics, then constructs a gamified scene that drives the model to explore, reconstruct intent, and answer as part of winning the game. The resulting structured reasoning chain increases task complexity in both vision and text, positioning the model as a participant whose goal pursuit reduces safety attention and induces it to answer the reconstructed malicious query. Extensive experiments on popular reasoning and non-reasoning MLLMs demonstrate that GAMBIT achieves high Attack Success Rates (ASR), reaching 92.13% on Gemini 2.5 Flash, 91.20% on QvQ-MAX, and 85.87% on GPT-4o, significantly outperforming baselines.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は広く普及しているが、その安全性は敵の入力下でも脆弱である。
これまでの研究では、推論ステップの増加が安全メカニズムを阻害し、MLLMを誘導して攻撃者が望んだ有害なコンテンツを生成することが示されている。
しかし、既存の攻撃のほとんどは、修正された視覚タスク自体の複雑さの増加に焦点を当てており、モデル自身の推論インセンティブを明示的に活用していない。
これにより、推論モデル(Chain-of-Thoughts)と非推論モデル(Chain-of-Thoughtsのないモデル)ではパフォーマンスが低下する。
もしモデルが人間のように考えることができれば、私たちはその認知段階の決定に影響を与えて、積極的に脱獄を完了できるだろうか?
この考え方を検証するために,有害な視覚的意味論を分解・再組み立てする新しいマルチモーダル・ジェイルブレイク・フレームワークであるGAMBI}(Gamified Adversarial Multimodal Breakout via Instructional Traps)を提案する。
結果として構成された推論チェーンは、視覚とテキストの両方においてタスクの複雑さを増大させ、モデルが目標を追求する参加者として位置づけることで、安全性の注意を減らし、再構成された悪意のあるクエリに応答するように誘導する。
一般的な推論と非推論MLLMの広範な実験により、GAMBITは高い攻撃成功率(ASR)を達成し、Gemini 2.5 Flashで92.13%、QvQ-MAXで91.20%、GPT-4oで85.87%を達成した。
関連論文リスト
- Red-teaming the Multimodal Reasoning: Jailbreaking Vision-Language Models via Cross-modal Entanglement Attacks [12.019519100082798]
マルチモーダル推論機能を持つ視覚言語モデル(VLM)は、高い攻撃目標である。
textbfCrossTALK(textbfunderlineCross-modal entextbfunderlineTAngtextbfunderlineLement attactextbfunderlineK)を提案する。
実験により、COMETは最先端の攻撃成功率を達成することが示された。
論文 参考訳(メタデータ) (2026-02-09T18:31:25Z) - RL-MTJail: Reinforcement Learning for Automated Black-Box Multi-Turn Jailbreaking of Large Language Models [60.201244463046784]
大規模な言語モデルは、ジェイルブレイク攻撃に弱い。
本稿では,ブラックボックスのマルチターンジェイルブレイクについて検討し,ブラックボックスモデルから有害なコンテンツを引き出すように攻撃者のLDMを訓練することを目的とした。
論文 参考訳(メタデータ) (2025-12-08T17:42:59Z) - GRAF: Multi-turn Jailbreaking via Global Refinement and Active Fabrication [55.63412213263305]
大規模言語モデルは、悪意のある目的のために誤用される可能性があるため、顕著な安全性のリスクを生じさせる。
そこで本研究では,各インタラクションにおける攻撃経路をグローバルに洗練する,新しいマルチターンジェイルブレーキング手法を提案する。
さらに、モデル応答を積極的に作成し、安全性に関する警告を抑えることにより、有害な出力を誘発する可能性を高める。
論文 参考訳(メタデータ) (2025-06-22T03:15:05Z) - Exploring the Vulnerability of the Content Moderation Guardrail in Large Language Models via Intent Manipulation [29.8288014123234]
本研究では,意図認識型ガードレールの脆弱性を調査し,大規模言語モデルが暗黙の意図検出能力を示すことを示す。
IntentPromptという2段階のインテントベースのプロンプトリファインメントフレームワークを提案し、まず有害な問い合わせを構造化されたアウトラインに変換し、さらに宣言的なスタイルの物語に再構成する。
われわれのフレームワークは、最先端のジェイルブレイク手法を一貫して上回り、さらに高度なIntent Analysis(IA)とChain-of-Thought(CoT)ベースの防御を回避している。
論文 参考訳(メタデータ) (2025-05-24T06:47:32Z) - Implicit Jailbreak Attacks via Cross-Modal Information Concealment on Vision-Language Models [20.99874786089634]
以前のジェイルブレイク攻撃は、しばしば悪意のある命令をテキストから視覚など、整合性の低いモダリティに注入する。
IJAと呼ばれる新しい暗黙のジェイルブレイクフレームワークを提案し、少なくとも重要なビットステガノグラフィーによって悪意ある命令を画像に密かに埋め込む。
GPT-4o や Gemini-1.5 Pro などの商用モデルでは,攻撃成功率は90% 以上で,平均 3 クエリのみを用いて達成している。
論文 参考訳(メタデータ) (2025-05-22T09:34:47Z) - MIRAGE: Multimodal Immersive Reasoning and Guided Exploration for Red-Team Jailbreak Attacks [85.3303135160762]
MIRAGEは、物語駆動型コンテキストとロール没入を利用して、マルチモーダル大規模言語モデルにおける安全性メカニズムを回避する新しいフレームワークである。
最先端のパフォーマンスを達成し、最高のベースラインよりも攻撃成功率を最大17.5%向上させる。
役割の浸漬と構造的セマンティック再構築は、モデル固有のバイアスを活性化し、モデルが倫理的保護に自発的に違反することを実証する。
論文 参考訳(メタデータ) (2025-03-24T20:38:42Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [50.40122190627256]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z) - Cognitive Overload: Jailbreaking Large Language Models with Overloaded
Logical Thinking [60.78524314357671]
本研究では,大規模言語モデル(LLM)の認知的構造とプロセスをターゲットにした新しいジェイルブレイク攻撃のカテゴリについて検討する。
提案する認知的オーバーロードはブラックボックス攻撃であり、モデルアーキテクチャやモデルウェイトへのアクセスの知識は不要である。
AdvBenchとMasterKeyで実施された実験では、人気のあるオープンソースモデルであるLlama 2とプロプライエタリモデルであるChatGPTの両方を含む様々なLLMが、認知的オーバーロードによって妥協可能であることが明らかになった。
論文 参考訳(メタデータ) (2023-11-16T11:52:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。