論文の概要: Robust Multimodal Safety via Conditional Decoding
- arxiv url: http://arxiv.org/abs/2604.00310v1
- Date: Tue, 31 Mar 2026 23:19:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.762174
- Title: Robust Multimodal Safety via Conditional Decoding
- Title(参考訳): 条件デコードによるロバストマルチモーダル安全性
- Authors: Anurag Kumar, Raghuveer Peri, Jon Burnsky, Alexandru Nelus, Rohit Paturi, Srikanth Vishnubhotla, Yanjun Qi,
- Abstract要約: マルチモーダル大規模言語モデル(MLLM)は、有害なクエリが相互モーダル相互作用を悪用した場合、しばしば安全性の低下を経験する。
本稿では,MLLMの内部表現を利用して応答生成前の二項安全トークンを予測する,シンプルな条件付きデコード戦略であるCASAを提案する。
- 参考スコア(独自算出の注目度): 52.92816441364308
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multimodal large-language models (MLLMs) often experience degraded safety alignment when harmful queries exploit cross-modal interactions. Models aligned on text alone show a higher rate of successful attacks when extended to two or more modalities. In this work, we propose a simple conditional decoding strategy, CASA (Classification Augmented with Safety Attention) that utilizes internal representations of MLLMs to predict a binary safety token before response generation. We introduce a novel safety attention module designed to enhance the model's ability to detect malicious queries. Our design ensures robust safety alignment without relying on any external classifier or auxiliary head, and without the need for modality-specific safety fine-tuning. On diverse benchmarks such as MM-SafetyBench, JailbreakV-28k, and adversarial audio tests, CASA lowers the average attack success rate by more than 97% across modalities and across attack types. Our empirical evaluations also show that CASA maintains strong utility in benign inputs, a result validated through both automated and human evaluations (via 13 trained annotators). Together, these results highlight CASA as a simple and generalizable framework to improve multimodal LLM safety.
- Abstract(参考訳): マルチモーダル大規模言語モデル(MLLM)は、有害なクエリが相互モーダル相互作用を悪用した場合、しばしば安全性の低下を経験する。
テキストにアライメントされたモデルは、2つ以上のモダリティに拡張された場合、より高い攻撃率を示す。
本研究では,MLLMの内部表現を利用して応答生成前の二項安全トークンを予測する,シンプルな条件付きデコード戦略であるCASAを提案する。
本稿では,悪質なクエリを検知するモデルの性能を高めるために,新しい安全注意モジュールを提案する。
我々の設計は、外部の分類器や補助ヘッドに頼ることなく、かつ、モダリティ固有の安全微調整を必要とせずに、堅牢な安全アライメントを確保する。
MM-SafetyBench、JailbreakV-28k、反対オーディオテストなどの多様なベンチマークでは、CASAは、モダリティと攻撃タイプの平均攻撃成功率を97%以上下げている。
実験により, CASAは良性入力において高い有効性を維持しており, 自動評価と人的評価の両面から(13のアノテータによる)検証結果が得られた。
これらの結果から,CASA はマルチモーダル LLM の安全性を向上させるためのシンプルで一般化可能なフレームワークとして注目されている。
関連論文リスト
- Evolving Contextual Safety in Multi-Modal Large Language Models via Inference-Time Self-Reflective Memory [10.434155461003387]
本稿では,コンテキスト安全評価のためのベンチマークであるMM-SafetyBench++を提案する。
各安全でない画像テキストペアに対して、最小限の変更で対応する安全なペアを構築する。
トレーニング不要のフレームワークであるEchoSafeも導入しています。
論文 参考訳(メタデータ) (2026-03-16T18:32:26Z) - When Safe Unimodal Inputs Collide: Optimizing Reasoning Chains for Cross-Modal Safety in Multimodal Large Language Models [50.66979825532277]
我々は、クロスモーダルチャレンジに適した解釈可能な推論パスを備えた最初のデータセットであるSSUI(Safe-Semantics-but-Unsafe-Interpretation)を紹介した。
新たなトレーニングフレームワークであるSRPO(Safety-Aware Reasoning Path Optimization)も、SSUIデータセットに基づいて設計されている。
実験の結果, SRPO学習モデルでは, キーセーフティベンチマークで最先端の結果が得られた。
論文 参考訳(メタデータ) (2025-09-15T15:40:58Z) - Omni-SafetyBench: A Benchmark for Safety Evaluation of Audio-Visual Large Language Models [43.88239953205896]
Omni-SafetyBenchは、OLLMの安全性評価のための最初の総合的な並列ベンチマークである。
複雑なオムニモーダル入力によるOLLMの理解課題を考慮し,条件付き攻撃成功率(C-ASR)と拒絶率(C-RR)に基づく安全スコアを提案する。
Omni-SafetyBenchを用いて、既存の安全アライメントアルゴリズムを評価し、OLLMの安全性アライメントにおける重要な課題を特定した。
論文 参考訳(メタデータ) (2025-08-10T04:15:16Z) - Secure Tug-of-War (SecTOW): Iterative Defense-Attack Training with Reinforcement Learning for Multimodal Model Security [63.41350337821108]
マルチモーダル大規模言語モデル(MLLM)のセキュリティを高めるために,Secure Tug-of-War(SecTOW)を提案する。
SecTOWは2つのモジュールで構成される:ディフェンダーと補助攻撃者。どちらも強化学習(GRPO)を使用して反復的に訓練される。
SecTOWは、一般的な性能を維持しながら、セキュリティを大幅に改善することを示す。
論文 参考訳(メタデータ) (2025-07-29T17:39:48Z) - Automating Steering for Safe Multimodal Large Language Models [58.36932318051907]
基礎モデルの微調整を必要とせず,モジュール型かつ適応型推論時間介入技術であるAutoSteerを導入する。
AutoSteerは,(1)モデル内部層間の最も安全性に関連のある識別を自動的に行う新しい安全意識スコア(SAS),(2)中間表現から有害な出力の可能性を推定するために訓練された適応安全プローバ,(3)安全性のリスクが検出された場合に生成を選択的に介入する軽量な拒絶ヘッドの3つのコアコンポーネントを組み込んだ。
論文 参考訳(メタデータ) (2025-07-17T16:04:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。