論文の概要: SafeSteer: A Decoding-level Defense Mechanism for Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2605.11716v1
- Date: Tue, 12 May 2026 08:05:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.691532
- Title: SafeSteer: A Decoding-level Defense Mechanism for Multimodal Large Language Models
- Title(参考訳): SafeSteer: マルチモーダル大規模言語モデルのためのデコードレベルの防御機構
- Authors: Xinyi Zeng, Xue Yang, Jingyuan Zhang, Huanqian Yan, Xiang Chen, Kaiwen Wei, Hankun Kang, Yu Tian,
- Abstract要約: 本稿では,MLLMの復号レベル防衛機構であるSafeSteerを紹介する。
復号中に有害な出力を検出し修正するための復号プローブを含む。
MLLMの安全性は、微調整なしで最大33.40%向上できる。
- 参考スコア(独自算出の注目度): 30.79900292985646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) are gaining increasing attention. Due to the heterogeneity of their input features, they face significant challenges in terms of jailbreak defenses. Current defense methods rely on costly fine-tuning or inefficient post-hoc interventions, limiting their ability to address novel attacks and involving performance trade-offs. To address the above issues, we explore the inherent safety capabilities within MLLMs and quantify their intrinsic ability to discern harmfulness at decoding stage. We observe that 1) MLLMs can distinguish the harmful and harmless inputs during decoding process, 2) Image-based attacks are more stealthy. Based on these insights, we introduce SafeSteer, a decoding-level defense mechanism for MLLMs. Specifically, it includes a Decoding-Probe, a lightweight probe for detecting and correcting harmful output during decoding, which iteratively steers the decoding process toward safety. Furthermore, a modal semantic alignment vector is integrated to transfer the strong textual safety alignment to the vision modality. Experiments on multiple MLLMs demonstrate that SafeSterr can improve MLLMs' safety by up to 33.40\% without fine-tuning. Notably, it can maintain the effectiveness of MLLMs, ensuring a balance between their helpfulness and harmlessness.
- Abstract(参考訳): MLLM(Multimodal large language model)が注目されている。
入力機能の異質性のため、彼らはジェイルブレイク防御の点で重大な課題に直面している。
現在の防衛方法は、コストのかかる微調整や非効率なポストホックの介入に依存しており、新しい攻撃に対処する能力やパフォーマンスのトレードオフに対処する能力を制限する。
以上の課題に対処するため, MLLM内の本質的な安全性機能について検討し, 復号段階で有害性を識別する本質的な能力を定量化する。
私たちはそれを観察する
1)MLLMは復号過程において有害かつ無害な入力を区別することができる。
2)画像ベースの攻撃はよりステルス性が高い。
これらの知見に基づいて,MLLMの復号レベル防衛機構であるSafeSteerを紹介する。
具体的には、復号中に有害な出力を検出し、修正するための軽量プローブである復号プローブを含み、復号処理を安全に向けて反復的に操縦する。
さらに、モーダルセマンティックアライメントベクトルを統合して、強いテキストの安全性アライメントを視覚のモダリティに転送する。
複数のMLLMの実験では、SafeSterrは微調整なしでMLLMの安全性を最大33.40\%向上できることを示した。
特に、MLLMの有効性を維持し、その有用性と無害性のバランスを確保することができる。
関連論文リスト
- CoCA: Regaining Safety-awareness of Multimodal Large Language Models with Constitutional Calibration [90.36429361299807]
マルチモーダルな大言語モデル (MLLM) は、視覚的な入力を含む会話への関与において顕著な成功を収めている。
視覚的モダリティの統合は、MLLMが悪意のある視覚的入力に影響を受けやすいという、ユニークな脆弱性を導入している。
本稿では,出力分布を校正することでMLLMの安全性を向上するCoCA技術を紹介する。
論文 参考訳(メタデータ) (2024-09-17T17:14:41Z) - Eyes Closed, Safety On: Protecting Multimodal LLMs via Image-to-Text Transformation [98.02846901473697]
我々は,MLLMの本来の安全意識を生かしたトレーニング不要な保護手法であるECSO(Eyes Closed, Safety On)を提案する。
ECSOは、安全でない画像をテキストに適応的に変換することで、より安全な応答を生成し、予め整列されたLCMの本質的な安全性メカニズムを活性化する。
論文 参考訳(メタデータ) (2024-03-14T17:03:04Z) - MLLM-Protector: Ensuring MLLM's Safety without Hurting Performance [36.03512474289962]
本稿では,視覚入力による悪意ある攻撃に対してMLLMを防御する新たな課題について検討する。
画像は、安全アライメントの間に考慮されていない「外国語として機能する」ため、MLLMは有害な反応を生じやすい。
MLLM-Protectorは,1)軽量害検知器による有害応答の同定,2)除毒器による有害応答の無害化という2つのサブタスクを解決するためのプラグアンドプレイ戦略である。
論文 参考訳(メタデータ) (2024-01-05T17:05:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。