論文の概要: GAMBIT: A Gamified Jailbreak Framework for Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2601.03416v1
- Date: Tue, 06 Jan 2026 21:09:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.072342
- Title: GAMBIT: A Gamified Jailbreak Framework for Multimodal Large Language Models
- Title(参考訳): GAMBIT:マルチモーダル大規模言語モデルのためのゲーミフィケーションジェイルブレイクフレームワーク
- Authors: Xiangdong Hu, Yangyang Jiang, Qin Hu, Xiaojun Jia,
- Abstract要約: 本稿では,ゲーム勝利の一環として,探索,意図の再構築,回答を行うモデルを駆動する新しいフレームワークを提案する。
GAMBITは高い攻撃成功率(ASR)を達成し、Gemini 2.5 Flashで92.13%、QvQ-MAXで91.20%、GPT-4oで85.87%に達した。
- 参考スコア(独自算出の注目度): 16.68943715789759
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have become widely deployed, yet their safety alignment remains fragile under adversarial inputs. Previous work has shown that increasing inference steps can disrupt safety mechanisms and lead MLLMs to generate attacker-desired harmful content. However, most existing attacks focus on increasing the complexity of the modified visual task itself and do not explicitly leverage the model's own reasoning incentives. This leads to them underperforming on reasoning models (Models with Chain-of-Thoughts) compared to non-reasoning ones (Models without Chain-of-Thoughts). If a model can think like a human, can we influence its cognitive-stage decisions so that it proactively completes a jailbreak? To validate this idea, we propose GAMBI} (Gamified Adversarial Multimodal Breakout via Instructional Traps), a novel multimodal jailbreak framework that decomposes and reassembles harmful visual semantics, then constructs a gamified scene that drives the model to explore, reconstruct intent, and answer as part of winning the game. The resulting structured reasoning chain increases task complexity in both vision and text, positioning the model as a participant whose goal pursuit reduces safety attention and induces it to answer the reconstructed malicious query. Extensive experiments on popular reasoning and non-reasoning MLLMs demonstrate that GAMBIT achieves high Attack Success Rates (ASR), reaching 92.13% on Gemini 2.5 Flash, 91.20% on QvQ-MAX, and 85.87% on GPT-4o, significantly outperforming baselines.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は広く普及しているが、その安全性は敵の入力下でも脆弱である。
これまでの研究では、推論ステップの増加が安全メカニズムを阻害し、MLLMを誘導して攻撃者が望んだ有害なコンテンツを生成することが示されている。
しかし、既存の攻撃のほとんどは、修正された視覚タスク自体の複雑さの増加に焦点を当てており、モデル自身の推論インセンティブを明示的に活用していない。
これにより、推論モデル(Chain-of-Thoughts)と非推論モデル(Chain-of-Thoughtsのないモデル)ではパフォーマンスが低下する。
もしモデルが人間のように考えることができれば、私たちはその認知段階の決定に影響を与えて、積極的に脱獄を完了できるだろうか?
この考え方を検証するために,有害な視覚的意味論を分解・再組み立てする新しいマルチモーダル・ジェイルブレイク・フレームワークであるGAMBI}(Gamified Adversarial Multimodal Breakout via Instructional Traps)を提案する。
結果として構成された推論チェーンは、視覚とテキストの両方においてタスクの複雑さを増大させ、モデルが目標を追求する参加者として位置づけることで、安全性の注意を減らし、再構成された悪意のあるクエリに応答するように誘導する。
一般的な推論と非推論MLLMの広範な実験により、GAMBITは高い攻撃成功率(ASR)を達成し、Gemini 2.5 Flashで92.13%、QvQ-MAXで91.20%、GPT-4oで85.87%を達成した。
関連論文リスト
- RL-MTJail: Reinforcement Learning for Automated Black-Box Multi-Turn Jailbreaking of Large Language Models [60.201244463046784]
大規模な言語モデルは、ジェイルブレイク攻撃に弱い。
本稿では,ブラックボックスのマルチターンジェイルブレイクについて検討し,ブラックボックスモデルから有害なコンテンツを引き出すように攻撃者のLDMを訓練することを目的とした。
論文 参考訳(メタデータ) (2025-12-08T17:42:59Z) - Implicit Jailbreak Attacks via Cross-Modal Information Concealment on Vision-Language Models [20.99874786089634]
以前のジェイルブレイク攻撃は、しばしば悪意のある命令をテキストから視覚など、整合性の低いモダリティに注入する。
IJAと呼ばれる新しい暗黙のジェイルブレイクフレームワークを提案し、少なくとも重要なビットステガノグラフィーによって悪意ある命令を画像に密かに埋め込む。
GPT-4o や Gemini-1.5 Pro などの商用モデルでは,攻撃成功率は90% 以上で,平均 3 クエリのみを用いて達成している。
論文 参考訳(メタデータ) (2025-05-22T09:34:47Z) - MIRAGE: Multimodal Immersive Reasoning and Guided Exploration for Red-Team Jailbreak Attacks [85.3303135160762]
MIRAGEは、物語駆動型コンテキストとロール没入を利用して、マルチモーダル大規模言語モデルにおける安全性メカニズムを回避する新しいフレームワークである。
最先端のパフォーマンスを達成し、最高のベースラインよりも攻撃成功率を最大17.5%向上させる。
役割の浸漬と構造的セマンティック再構築は、モデル固有のバイアスを活性化し、モデルが倫理的保護に自発的に違反することを実証する。
論文 参考訳(メタデータ) (2025-03-24T20:38:42Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。