論文の概要: CSR-Bench: A Benchmark for Evaluating the Cross-modal Safety and Reliability of MLLMs
- arxiv url: http://arxiv.org/abs/2602.03263v1
- Date: Tue, 03 Feb 2026 08:49:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.335219
- Title: CSR-Bench: A Benchmark for Evaluating the Cross-modal Safety and Reliability of MLLMs
- Title(参考訳): CSR-Bench:MLLMのクロスモーダル安全性と信頼性を評価するベンチマーク
- Authors: Yuxuan Liu, Yuntian Shi, Kun Wang, Haoting Shen, Kun Yang,
- Abstract要約: MLLM(Multimodal large language model)は、テキストと画像の相互作用を可能にする。
本稿では,クロスモーダル信頼性を評価するベンチマークであるCSR-Benchを紹介する。
我々は16の最先端MLLMを評価し,系統的な相互アライメントギャップを観察した。
- 参考スコア(独自算出の注目度): 10.42126976065225
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) enable interaction over both text and images, but their safety behavior can be driven by unimodal shortcuts instead of true joint intent understanding. We introduce CSR-Bench, a benchmark for evaluating cross-modal reliability through four stress-testing interaction patterns spanning Safety, Over-rejection, Bias, and Hallucination, covering 61 fine-grained types. Each instance is constructed to require integrated image-text interpretation, and we additionally provide paired text-only controls to diagnose modality-induced behavior shifts. We evaluate 16 state-of-the-art MLLMs and observe systematic cross-modal alignment gaps. Models show weak safety awareness, strong language dominance under interference, and consistent performance degradation from text-only controls to multimodal inputs. We also observe a clear trade-off between reducing over-rejection and maintaining safe, non-discriminatory behavior, suggesting that some apparent safety gains may come from refusal-oriented heuristics rather than robust intent understanding. WARNING: This paper contains unsafe contents.
- Abstract(参考訳): MLLM(Multimodal large language model)は、テキストと画像の相互作用を可能にするが、その安全性は、真の結合意図理解ではなく、一対一のショートカットによって駆動される。
CSR-Benchは, 安全性, オーバーリジェクション, バイアス, ハロシン化の4つのストレス-テスト相互作用パターンを用いて, 61種類の微粒化を対象とするクロスモーダル信頼性を評価するベンチマークである。
各インスタンスは、統合された画像テキスト解釈を必要とするように構成され、また、モダリティによって引き起こされる行動変化を診断するためのペア化されたテキストのみの制御も提供する。
我々は16の最先端MLLMを評価し,系統的な相互アライメントギャップを観察した。
モデルは、安全意識の弱さ、干渉下での言語優位性、テキストのみの制御からマルチモーダル入力への一貫したパフォーマンス劣化を示す。
我々はまた、過剰な拒絶を減らし、安全で差別的でない行動を維持することの間の明確なトレードオフを観察し、いくつかの明らかな安全性向上は、強い意図的理解ではなく、拒絶指向のヒューリスティックから生じる可能性があることを示唆している。
WARNING: この論文は安全でない内容を含んでいる。
関連論文リスト
- MTMCS-Bench: Evaluating Contextual Safety of Multimodal Large Language Models in Multi-Turn Dialogues [39.24594135913578]
実写画像とマルチターン会話のベンチマークであるMulti-Turn Multimodal Contextual Safety Benchmark (MTMCS-Bench)を紹介する。
MTMCS-Benchは、構造化された評価を伴うペアセーフとアンセーフの対話を提供する。
我々は、段階的なリスクを逃すか、良心的な対話を過度に排除する傾向にあるモデルで、文脈的安全性と実用性の間の永続的なトレードオフを観察する。
論文 参考訳(メタデータ) (2026-01-11T03:10:56Z) - LatentGuard: Controllable Latent Steering for Robust Refusal of Attacks and Reliable Response Generation [4.29885665563186]
LATENTGUARDは、行動アライメントと教師付き潜在空間制御を組み合わせて、解釈可能で正確な安全操縦を行うフレームワークである。
本研究は, 実用性を損なうことなく, 安全性制御性と応答解釈性の両方を向上することを示す。
論文 参考訳(メタデータ) (2025-09-24T07:31:54Z) - When Safe Unimodal Inputs Collide: Optimizing Reasoning Chains for Cross-Modal Safety in Multimodal Large Language Models [50.66979825532277]
我々は、クロスモーダルチャレンジに適した解釈可能な推論パスを備えた最初のデータセットであるSSUI(Safe-Semantics-but-Unsafe-Interpretation)を紹介した。
新たなトレーニングフレームワークであるSRPO(Safety-Aware Reasoning Path Optimization)も、SSUIデータセットに基づいて設計されている。
実験の結果, SRPO学習モデルでは, キーセーフティベンチマークで最先端の結果が得られた。
論文 参考訳(メタデータ) (2025-09-15T15:40:58Z) - Security Tensors as a Cross-Modal Bridge: Extending Text-Aligned Safety to Vision in LVLM [40.83149588857177]
大規模視覚言語モデル(LVLM)は、複数モーダル入力を処理する視覚モジュールと整列した大言語モデル(LLM)を統合する。
セキュリティテンソル(Security tensor) - テキストや視覚のモダリティを通じて推論中に適用されるトレーニング可能な入力ベクトル。
論文 参考訳(メタデータ) (2025-07-28T16:59:53Z) - Automating Steering for Safe Multimodal Large Language Models [58.36932318051907]
基礎モデルの微調整を必要とせず,モジュール型かつ適応型推論時間介入技術であるAutoSteerを導入する。
AutoSteerは,(1)モデル内部層間の最も安全性に関連のある識別を自動的に行う新しい安全意識スコア(SAS),(2)中間表現から有害な出力の可能性を推定するために訓練された適応安全プローバ,(3)安全性のリスクが検出された場合に生成を選択的に介入する軽量な拒絶ヘッドの3つのコアコンポーネントを組み込んだ。
論文 参考訳(メタデータ) (2025-07-17T16:04:55Z) - ROSE: Toward Reality-Oriented Safety Evaluation of Large Language Models [60.28667314609623]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいてブラックボックスコンポーネントとしてますます多くデプロイされている。
我々は,多目的強化学習を用いて敵のLDMを微調整する新しいフレームワークであるReal-Oriented Safety Evaluation (ROSE)を提案する。
論文 参考訳(メタデータ) (2025-06-17T10:55:17Z) - MIRAGE: Multimodal Immersive Reasoning and Guided Exploration for Red-Team Jailbreak Attacks [85.3303135160762]
MIRAGEは、物語駆動型コンテキストとロール没入を利用して、マルチモーダル大規模言語モデルにおける安全性メカニズムを回避する新しいフレームワークである。
最先端のパフォーマンスを達成し、最高のベースラインよりも攻撃成功率を最大17.5%向上させる。
役割の浸漬と構造的セマンティック再構築は、モデル固有のバイアスを活性化し、モデルが倫理的保護に自発的に違反することを実証する。
論文 参考訳(メタデータ) (2025-03-24T20:38:42Z) - Safety Mirage: How Spurious Correlations Undermine VLM Safety Fine-Tuning and Can Be Mitigated by Machine Unlearning [43.209846711845536]
現在のアライメント戦略は、キュレートされたデータセットによる監視された安全性の微調整に依存している。
教師付き微調整は,表面テクスチャパターンと安全応答の急激な相関を必然的に強化することを示す。
マシン・アンラーニング(MU)は、教師付き安全微調整の強力な代替手段であることを示す。
論文 参考訳(メタデータ) (2025-03-14T19:52:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。