論文の概要: Steering Multimodal Large Language Models Decoding for Context-Aware Safety
- arxiv url: http://arxiv.org/abs/2509.19212v1
- Date: Tue, 23 Sep 2025 16:32:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.951325
- Title: Steering Multimodal Large Language Models Decoding for Context-Aware Safety
- Title(参考訳): コンテキスト認識型安全性のためのマルチモーダル大言語モデルデコーディングのステアリング
- Authors: Zheyuan Liu, Zhangchen Xu, Guangyao Dou, Xiangchi Yuan, Zhaoxuan Tan, Radha Poovendran, Meng Jiang,
- Abstract要約: MLLM(Multimodal Large Language Models)は、現実世界のアプリケーションに実装されている。
既存の手法では過敏性(良性クエリの不正な拒絶)と過敏性(視覚的根拠のあるリスクの欠如)のバランスが取れない。
マルチモーダルコンテキストに基づいてトークン生成を動的に調整する軽量かつモデルに依存しないデコーディングフレームワークであるSafeCoDeを紹介する。
- 参考スコア(独自算出の注目度): 40.668741064553025
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) are increasingly deployed in real-world applications, yet their ability to make context-aware safety decisions remains limited. Existing methods often fail to balance oversensitivity (unjustified refusals of benign queries) and undersensitivity (missed detection of visually grounded risks), leaving a persistent gap in safety alignment. To address this issue, we introduce Safety-aware Contrastive Decoding (SafeCoDe), a lightweight and model-agnostic decoding framework that dynamically adjusts token generation based on multimodal context. SafeCoDe operates in two stages: (1) a contrastive decoding mechanism that highlights tokens sensitive to visual context by contrasting real and Gaussian-noised images, and (2) a global-aware token modulation strategy that integrates scene-level reasoning with token-level adjustment to adapt refusals according to the predicted safety verdict. Extensive experiments across diverse MLLM architectures and safety benchmarks, covering undersensitivity, oversensitivity, and general safety evaluations, show that SafeCoDe consistently improves context-sensitive refusal behaviors while preserving model helpfulness.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、現実世界のアプリケーションにますますデプロイされているが、コンテキスト対応の安全性決定を行う能力は限られている。
既存の方法では、過敏性(良心的クエリの不正な拒絶)と過敏性(視覚的根拠のあるリスクの検出を欠いた)のバランスが取れず、安全アライメントの持続的なギャップが残る。
この問題に対処するために,マルチモーダルコンテキストに基づいてトークン生成を動的に調整する軽量かつモデルに依存しないデコーディングフレームワークであるSafeCoDeを導入する。
SafeCoDeは,(1)実画像とガウス画像とを対比することで,視覚的コンテキストに敏感なトークンをハイライトするコントラストデコーディング機構,(2)予測された安全判断に従って,シーンレベルの推論とトークンレベルの調整を統合して拒絶を適応するグローバルなトークン変調戦略の2段階で動作する。
さまざまなMLLMアーキテクチャと安全性ベンチマークの広範な実験、過敏性、過敏性、一般的な安全性評価は、SafeCoDeがモデルの有用性を維持しながら、コンテキストに敏感な拒絶動作を一貫して改善していることを示している。
関連論文リスト
- AURA: Affordance-Understanding and Risk-aware Alignment Technique for Large Language Models [6.059681491089391]
AURAは論理的一貫性と安全性を認識した総合的、段階的な評価を提供する。
本フレームワークは, 内省的自己批判, きめ細かいPRM評価, 適応型安全認識復号をシームレスに結合する。
この研究は、アライメントに敏感なアプリケーションのための新しいベンチマークを設定することで、より安全で責任があり、コンテキストに敏感なAIに向けた重要なステップである。
論文 参考訳(メタデータ) (2025-08-08T08:43:24Z) - Automating Steering for Safe Multimodal Large Language Models [58.36932318051907]
基礎モデルの微調整を必要とせず,モジュール型かつ適応型推論時間介入技術であるAutoSteerを導入する。
AutoSteerは,(1)モデル内部層間の最も安全性に関連のある識別を自動的に行う新しい安全意識スコア(SAS),(2)中間表現から有害な出力の可能性を推定するために訓練された適応安全プローバ,(3)安全性のリスクが検出された場合に生成を選択的に介入する軽量な拒絶ヘッドの3つのコアコンポーネントを組み込んだ。
論文 参考訳(メタデータ) (2025-07-17T16:04:55Z) - Advancing Neural Network Verification through Hierarchical Safety Abstract Interpretation [52.626086874715284]
我々は、安全でない出力の階層構造を検証する抽象的DNN検証と呼ばれる新しい問題定式化を導入する。
出力到達可能な集合に関する抽象的解釈と推論を活用することにより,形式的検証プロセスにおいて,複数の安全性レベルを評価することができる。
我々の貢献には、新しい抽象的安全性の定式化と既存のアプローチとの関係を理論的に探求することが含まれる。
論文 参考訳(メタデータ) (2025-05-08T13:29:46Z) - Multimodal Situational Safety [73.63981779844916]
マルチモーダル・シチュエーション・セーフティ(Multimodal situational Safety)と呼ばれる新しい安全課題の評価と分析を行う。
MLLMが言語やアクションを通じても安全に応答するためには、言語クエリが対応する視覚的コンテキスト内での安全性への影響を評価する必要があることが多い。
我々は,現在のMLLMの状況安全性能を評価するためのマルチモーダル状況安全ベンチマーク(MSSBench)を開発した。
論文 参考訳(メタデータ) (2024-10-08T16:16:07Z) - SafeInfer: Context Adaptive Decoding Time Safety Alignment for Large Language Models [5.6874111521946356]
安全に整合した言語モデルは、しばしば脆弱で不均衡な安全メカニズムを示す。
文脈適応型デコード型安全アライメント戦略であるSafeInferを提案する。
HarmEvalは、広範な安全性評価のための新しいベンチマークである。
論文 参考訳(メタデータ) (2024-06-18T05:03:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。