論文の概要: VisCRA: A Visual Chain Reasoning Attack for Jailbreaking Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2505.19684v2
- Date: Wed, 28 May 2025 15:29:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 15:04:28.095404
- Title: VisCRA: A Visual Chain Reasoning Attack for Jailbreaking Multimodal Large Language Models
- Title(参考訳): VisCRA: マルチモーダル大規模言語モデルのジェイルブレークに対する視覚的連鎖推論攻撃
- Authors: Bingrui Sima, Linhua Cong, Wenxuan Wang, Kun He,
- Abstract要約: MLRMにおける高度な視覚的推論のセキュリティへの影響について検討する。
視覚的推論が向上するにつれて、モデルはジェイルブレイク攻撃に対してより脆弱になる。
安全機構をバイパスするために視覚的推論チェーンを利用する新しいジェイルブレイクフレームワークであるVisCRAを紹介する。
- 参考スコア(独自算出の注目度): 26.821861174999345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The emergence of Multimodal Large Language Models (MLRMs) has enabled sophisticated visual reasoning capabilities by integrating reinforcement learning and Chain-of-Thought (CoT) supervision. However, while these enhanced reasoning capabilities improve performance, they also introduce new and underexplored safety risks. In this work, we systematically investigate the security implications of advanced visual reasoning in MLRMs. Our analysis reveals a fundamental trade-off: as visual reasoning improves, models become more vulnerable to jailbreak attacks. Motivated by this critical finding, we introduce VisCRA (Visual Chain Reasoning Attack), a novel jailbreak framework that exploits the visual reasoning chains to bypass safety mechanisms. VisCRA combines targeted visual attention masking with a two-stage reasoning induction strategy to precisely control harmful outputs. Extensive experiments demonstrate VisCRA's significant effectiveness, achieving high attack success rates on leading closed-source MLRMs: 76.48% on Gemini 2.0 Flash Thinking, 68.56% on QvQ-Max, and 56.60% on GPT-4o. Our findings highlight a critical insight: the very capability that empowers MLRMs -- their visual reasoning -- can also serve as an attack vector, posing significant security risks.
- Abstract(参考訳): MLRM(Multimodal Large Language Models)の出現により、強化学習とCoT(Chain-of-Thought)の監督を統合することで、高度な視覚推論が可能になった。
しかし、これらの強化された推論能力は性能を向上させる一方で、新しい、未調査の安全性リスクも導入している。
本研究では,MLRMにおける高度な視覚的推論のセキュリティへの影響を系統的に検討する。
視覚的推論が向上するにつれて、モデルはジェイルブレイク攻撃に対してより脆弱になる。
この批判的な発見に触発され、視覚的推論チェーンを利用して安全機構をバイパスする新しいジェイルブレイクフレームワークVisCRA(Visual Chain Reasoning Attack)を紹介した。
VisCRAは視覚的注意マスクと2段階の推論誘導戦略を組み合わせて有害な出力を正確に制御する。
大規模な実験は、VisCRAの顕著な効果を示し、主要なクローズドソースMLRMに対して、76.48%がGemini 2.0 Flash Thinkingで、68.56%がQvQ-Maxで、56.60%がGPT-4oで、高い攻撃成功率を達成した。
MLRM(視覚的推論)に権限を与える能力は、攻撃ベクターとしても機能し、重大なセキュリティリスクを生じさせます。
関連論文リスト
- SafeMLRM: Demystifying Safety in Multi-modal Large Reasoning Models [50.34706204154244]
推論能力の獲得は、引き継がれた安全アライメントを壊滅的に劣化させる。
特定のシナリオは、25倍の攻撃率を被る。
MLRMは、厳密な推論と問合せの安全結合にもかかわらず、初期段階の自己補正を示す。
論文 参考訳(メタデータ) (2025-04-09T06:53:23Z) - MIRAGE: Multimodal Immersive Reasoning and Guided Exploration for Red-Team Jailbreak Attacks [85.3303135160762]
MIRAGEは、物語駆動型コンテキストとロール没入を利用して、マルチモーダル大規模言語モデルにおける安全性メカニズムを回避する新しいフレームワークである。
最先端のパフォーマンスを達成し、最高のベースラインよりも攻撃成功率を最大17.5%向上させる。
役割の浸漬と構造的セマンティック再構築は、モデル固有のバイアスを活性化し、モデルが倫理的保護に自発的に違反することを実証する。
論文 参考訳(メタデータ) (2025-03-24T20:38:42Z) - To Think or Not to Think: Exploring the Unthinking Vulnerability in Large Reasoning Models [56.19026073319406]
大規模推論モデル (LRM) は、最終的な答えを生成する前に明確な推論トレースを生成することで複雑なタスクを解決するように設計されている。
LRM(Unthinking)と呼ばれる重要な脆弱性を明らかにし、特別なトークンを操作することで思考プロセスを回避できます。
本稿では,この脆弱性を悪意と有益の両方の観点から検討する。
論文 参考訳(メタデータ) (2025-02-16T10:45:56Z) - Exploring Visual Vulnerabilities via Multi-Loss Adversarial Search for Jailbreaking Vision-Language Models [92.79804303337522]
VLM(Vision-Language Models)は、安全アライメントの問題に対して脆弱である。
本稿では、シナリオ認識画像生成を利用したセマンティックアライメントのための新しいジェイルブレイクフレームワークであるMLAIを紹介する。
大規模な実験はMLAIの重大な影響を示し、MiniGPT-4で77.75%、LLaVA-2で82.80%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2024-11-27T02:40:29Z) - Adversarial Attacks on Machine Learning-Aided Visualizations [12.37960099024803]
ML4VISのアプローチは、ML固有の敵攻撃の影響を受けやすい。
これらの攻撃は視覚化世代を操作でき、アナリストが騙され、判断が損なわれる。
本稿では,ML と ML の両視点の全体像レンズを用いて,敵攻撃による ML 支援視覚化の潜在的な脆弱性について検討する。
論文 参考訳(メタデータ) (2024-09-04T07:23:12Z) - Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。
我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。
本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文 参考訳(メタデータ) (2023-06-22T22:13:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。