論文の概要: GPO-V: Jailbreak Diffusion Vision Language Model by Global Probability Optimization
- arxiv url: http://arxiv.org/abs/2605.07399v2
- Date: Mon, 11 May 2026 06:29:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 19:24:01.351775
- Title: GPO-V: Jailbreak Diffusion Vision Language Model by Global Probability Optimization
- Title(参考訳): GPO-V:グローバル確率最適化によるジェイルブレイク拡散ビジョン言語モデル
- Authors: Yu Pan, Andi Zhang, Yi Wang, Sibei Yang, Wenjie Wang,
- Abstract要約: Diffusion Vision-Language Models (dVLMs) は、従来の自己回帰生成パラダイムから離れることで、マルチモーダルタスクにおいて顕著な効果を示した。
この脆弱性を利用するために,マスク拡散モデルの認知軌道に特化して設計された一般的なジェイルブレイクパラダイムであるグローバル確率最適化(GPO)を提案する。
GPO-Vは,DVLM用に開発された最初の視覚的モダリティジェイルブレイクフレームワークである。
- 参考スコア(独自算出の注目度): 38.17733373188058
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion Vision-Language Models (dVLMs), built upon the non-causal foundations of Diffusion Large Language Models (dLLMs), have demonstrated remarkable efficacy in multimodal tasks by departing from the traditional autoregressive generation paradigm. While dVLMs appear inherently robust against conventional jailbreak tactics, which we categorize as Fixed Prefix Optimization (FPO) (e.g., anchoring responses with "Sure, here is"), this perceived resilience is deceptive. Our investigation into the safety landscape of dVLMs reveals a unique refusal pattern: Immediate Refusal and Progressive Refusal. We find that while FPO-based attacks often fail by triggering the latter, the progressive refinement process itself uncovers a novel, latent attack surface. To exploit this vulnerability, we propose Global Probability Optimization (GPO), a general jailbreak paradigm designed specifically for the denoising trajectory of masked diffusion models. Unlike prefix-based methods, GPO manipulates the global generative dynamics to bypass guardrails in diffusion language models. Building on this, we introduce GPO-V, the first visual-modality jailbreak framework tailored for dVLMs. Empirical results demonstrate that GPO-V produces stealthy perturbations with exceptional cross-model transferability, revealing a critical security gap in non-sequential generative architectures. Our findings underscore the critical urgency of addressing safety alignment in dVLMs. These results necessitate an immediate and fundamental re-evaluation of current defense paradigms to mitigate the unique risks of diffusion-based generation. Our code is available at: https://anonymous.4open.science/r/GPO-V-0250.
- Abstract(参考訳): Diffusion Vision-Language Models (dVLMs) は、拡散大言語モデル(dLLMs)の非因果的基礎の上に構築され、従来の自己回帰生成パラダイムから脱却することで、マルチモーダルタスクにおいて顕著な効果を示した。
例えば、"Sure, here is"で応答をアンカーするなど、FPO(Fixed Prefix Optimization)に分類される従来のジェイルブレイク戦術に対して、dVLMは本質的に堅牢であるように見えるが、このレジリエンスは偽りである。
dVLMの安全性の展望を調査した結果,即時的拒絶と進歩的拒絶という,ユニークな拒絶パターンが明らかとなった。
FPOベースの攻撃は後者をトリガーすることでしばしば失敗するが、プログレッシブ・リファインメント・プロセス自体が新しく潜伏する攻撃面を明らかにする。
この脆弱性を利用するために,マスク拡散モデルの認知軌道に特化して設計された一般的なジェイルブレイクパラダイムであるグローバル確率最適化(GPO)を提案する。
プレフィックスベースの手法とは異なり、GPOは拡散言語モデルにおいてガードレールをバイパスするためにグローバルな生成ダイナミクスを操作する。
GPO-Vは,DVLM用に開発された最初の視覚的モダリティジェイルブレイクフレームワークである。
実験結果から, GPO-Vは例外的なモデル間移動性を持つスチープな摂動を発生し, 非逐次生成アーキテクチャにおいて重要なセキュリティギャップが明らかとなった。
本研究は,dVLMにおける安全性確保の緊急性を強調した。
これらの結果は、拡散ベースの生成のユニークなリスクを軽減するために、現在の防衛パラダイムの即時かつ基本的な再評価を必要とする。
私たちのコードは、https://anonymous.4open.science/r/GPO-V-0250で利用可能です。
関連論文リスト
- Uncovering Linguistic Fragility in Vision-Language-Action Models via Diversity-Aware Red Teaming [64.48633529149579]
本稿では,VLA(Vision-Language-Action)モデルの言語的変異に対する脆弱性を明らかにするための新しいフレームワークを提案する。
本手法は, ストレス試験用VLAエージェントへのスケーラブルなアプローチを示すため, 平均作業成功率を93.33%から5.85%に下げる。
論文 参考訳(メタデータ) (2026-04-07T08:43:36Z) - AttackVLA: Benchmarking Adversarial and Backdoor Attacks on Vision-Language-Action Models [60.39655329875822]
VLA(Vision-Language-Action)モデルは、ロボットが自然言語の命令を解釈し、多様なタスクを実行することを可能にするモデルである。
このようなモデルを攻撃することへの関心は高まっているが、既存の手法の有効性は依然として不明である。
我々はVLA開発ライフサイクルに合わせて統合されたフレームワークであるAttackVLAを提案する。
論文 参考訳(メタデータ) (2025-11-15T10:30:46Z) - DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - BadVLA: Towards Backdoor Attacks on Vision-Language-Action Models via Objective-Decoupled Optimization [45.97834622654751]
BadVLAはObjective-Decoupled Optimizationに基づくバックドア攻撃手法である。
我々は,BadVLAがクリーンタスク精度に最小限の影響を伴って,ほぼ100%の攻撃成功率を達成することを示す。
我々の研究は、VLAモデルにおけるバックドア脆弱性に関する最初の体系的な調査を提供する。
論文 参考訳(メタデータ) (2025-05-22T13:12:46Z) - T2VShield: Model-Agnostic Jailbreak Defense for Text-to-Video Models [88.63040835652902]
テキストからビデオモデルへの攻撃はジェイルブレイク攻撃に弱いため、特別な方法で安全メカニズムをバイパスし、有害または安全でないコンテンツの生成につながる。
我々は、ジェイルブレイクの脅威からテキストからビデオモデルを守るために設計された包括的でモデルに依存しない防衛フレームワークであるT2VShieldを提案する。
本手法は,既存の防御の限界を特定するために,入力,モデル,出力の段階を体系的に解析する。
論文 参考訳(メタデータ) (2025-04-22T01:18:42Z) - CeTAD: Towards Certified Toxicity-Aware Distance in Vision Language Models [16.5022773312661]
本稿では,ジェイルブレイク攻撃に対する大規模視覚言語モデルの保護を目的とした,普遍的な認証防衛フレームワークを提案する。
まず、悪意のある応答と意図した応答のセマンティックな差異を定量化する新しい距離尺度を提案する。
そして, ランダム化スムーシングを用いて, 形式的堅牢性を保証するための回帰認証手法を考案する。
論文 参考訳(メタデータ) (2025-03-08T17:33:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。