Fugu-MT 論文翻訳(概要): OOD-MMSafe: Advancing MLLM Safety from Harmful Intent to Hidden Consequences

論文の概要: OOD-MMSafe: Advancing MLLM Safety from Harmful Intent to Hidden Consequences

arxiv url: http://arxiv.org/abs/2603.09706v1
Date: Tue, 10 Mar 2026 14:16:43 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-11 15:25:24.381867
Title: OOD-MMSafe: Advancing MLLM Safety from Harmful Intent to Hidden Consequences
Title（参考訳）: OOD-MMSafe: 有害なインテントから隠れたコンセントへのMLLMの安全性向上
Authors: Ming Wen, Kun Yang, Jingyu Zhang, Yuxuan Liu, shiwen cui, Shouling Ji, Xingjun Ma,
Abstract要約: 現在の安全パラダイムは、主に悪意のある意図や状況違反をターゲットとしている。我々は,自律型および実施型エージェントのロバスト展開に不可欠なパラダイムである,結果駆動型安全に向けた安全フロンティアのシフトを提案する。本稿では,トークンレベルの自己蒸留報酬の動的参照として,モデル固有の推論を統合したCASPO(Consequence-Aware Safety Policy Optimization)フレームワークを開発する。
参考スコア（独自算出の注目度）: 64.01706941950489
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While safety alignment for Multimodal Large Language Models (MLLMs) has gained significant attention, current paradigms primarily target malicious intent or situational violations. We propose shifting the safety frontier toward consequence-driven safety, a paradigm essential for the robust deployment of autonomous and embodied agents. To formalize this shift, we introduce OOD-MMSafe, a benchmark comprising 455 curated query-image pairs designed to evaluate a model's ability to identify latent hazards within context-dependent causal chains. Our analysis reveals a pervasive causal blindness among frontier models, with the highest 67.5% failure rate in high-capacity closed-source models, and identifies a preference ceiling where static alignment yields format-centric failures rather than improved safety reasoning as model capacity grows. To address these bottlenecks, we develop the Consequence-Aware Safety Policy Optimization (CASPO) framework, which integrates the model's intrinsic reasoning as a dynamic reference for token-level self-distillation rewards. Experimental results demonstrate that CASPO significantly enhances consequence projection, reducing the failure ratio of risk identification to 7.3% for Qwen2.5-VL-7B and 5.7% for Qwen3-VL-4B while maintaining overall effectiveness.
Abstract（参考訳）: MLLM(Multimodal Large Language Models)の安全性アライメントは注目されているが、現在のパラダイムは主に悪意のある意図や状況違反をターゲットとしている。我々は,自律型および実施型エージェントのロバスト展開に不可欠なパラダイムである,結果駆動型安全に向けた安全フロンティアのシフトを提案する。 OOD-MMSafeは、455個のキュレートされたクエリイメージペアからなるベンチマークで、コンテキスト依存因果連鎖内の潜在的ハザードを識別する能力を評価する。解析の結果,フロンティアモデルでは最大67.5%の故障率を示すとともに,モデルキャパシティの増大に伴う安全性向上よりも,静的アライメントがフォーマット中心の障害を発生させる選好天井を同定した。このようなボトルネックに対処するため,トークンレベルの自己蒸留報酬の動的参照として,本モデル固有の推論を統合するConsequence-Aware Safety Policy Optimization (CASPO) フレームワークを開発した。実験の結果,CASPOは結果予測を著しく向上し,Qwen2.5-VL-7Bは7.3%,Qwen3-VL-4Bは5.7%に低下した。

論文の概要: OOD-MMSafe: Advancing MLLM Safety from Harmful Intent to Hidden Consequences

関連論文リスト