論文の概要: Safety Geometry Collapse in Multimodal LLMs and Adaptive Drift Correction
- arxiv url: http://arxiv.org/abs/2605.18104v1
- Date: Mon, 18 May 2026 09:16:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:49.218522
- Title: Safety Geometry Collapse in Multimodal LLMs and Adaptive Drift Correction
- Title(参考訳): 多モードLDMにおける安全形状の崩壊と適応ドリフト補正
- Authors: Jiahe Guo, Xiangran Guo, Jiaxuan Chen, Weixiang Zhao, Yanyan Zhao, Yutai Hou, Qianchao Wang, Dandan Tu, Bing Qin,
- Abstract要約: MLLM(Multimodal large language model)は、テキストモダリティで学習した安全性機能を意味的に等価な非テキスト入力に転送するのに失敗することが多い。
本研究は,テキストアライメントされた拒絶方向とモダリティによるドリフト方向を解析することにより,このギャップについて検討する。
本稿では,自己修正によるモダリティドリフトを適応的に補正するトレーニングフリー推論時間法であるReGapを提案する。
- 参考スコア(独自算出の注目度): 43.59114552026716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) often fail to transfer safety capabilities learned in the text modality to semantically equivalent non-text inputs, revealing a persistent multimodal safety gap. We study this gap from a representation-geometric perspective by analyzing a text-aligned refusal direction and a modality-induced drift direction. We show that multimodal inputs compress the usable separation along the refusal direction, making it no longer reliable for identifying and refusing harmful inputs. We refer to this failure mode as Safety Geometry Collapse. We quantify it through conditional refusal separability and show that stronger modality-induced drift is consistently associated with weaker refusal separability and higher attack success rates. We then validate the causal role of modality-induced drift through a fixed-strength activation intervention: counteracting the estimated drift restores refusal separability and improves multimodal safety. After drift correction, we further observe self-rectification, where the model recovers its ability to recognize and refuse harmful multimodal inputs during forward dynamics. This effect also provides an internal signal of the model's perceived harmfulness of each input. Motivated by this signal, we propose ReGap, a training-free inference-time method that adaptively corrects modality drift using self-rectification. Experiments across multiple multimodal safety benchmarks and utility benchmarks demonstrate the effectiveness of ReGap, which significantly improves the safety of MLLMs without compromising general capabilities. Our findings highlight representation-level modality alignment as a crucial direction for real-time safety improvement and for building safer, more reliable MLLMs.
- Abstract(参考訳): MLLM(Multimodal large language model)は、テキストモダリティで学習した安全性機能を意味的に等価な非テキスト入力に転送することに失敗し、永続的なマルチモーダルの安全性ギャップを明らかにする。
本研究は,テキストアラインの拒絶方向とモダリティによるドリフト方向を解析することにより,このギャップを表現幾何学的視点から検討する。
マルチモーダル入力は、拒絶方向に沿って使用可能な分離を圧縮し、有害な入力を識別・拒否する信頼性がなくなったことを示す。
この障害モードをセーフティ・ジオメトリ・コラプス(Safety Geometry Collapse)と呼ぶ。
条件付き拒絶分離によって定量化し, より強いモダリティによるドリフトは, より弱い拒絶分離性とより高い攻撃成功率と一貫して関連していることを示す。
次に, 固定強度活性化介入によるモダリティ誘発ドリフトの因果的役割を検証し, 推定ドリフトの抑制は分離性を低下させ, マルチモーダル安全性を向上させる。
ドリフト補正後、さらに自己修正を行い、モデルが前方運動中に有害なマルチモーダル入力を認識・拒否する能力を回復する。
この効果はまた、各入力に対するモデルが認識する有害性の内部信号を与える。
この信号に触発されたReGapは,自己修正を用いてモーダルドリフトを適応的に補正する訓練不要推論時間法である。
複数のマルチモーダル安全性ベンチマークとユーティリティベンチマークによる実験は、汎用能力を損なうことなくMLLMの安全性を大幅に向上するReGapの有効性を示す。
本研究は、リアルタイムの安全性向上と、より安全で信頼性の高いMLLM構築のための重要な方向性として、表現レベルのモダリティアライメントを強調した。
関連論文リスト
- BarrierSteer: LLM Safety via Learning Barrier Steering [83.12893815611052]
BarrierSteerは、学習した非線形安全性制約を直接モデルの潜在表現空間に埋め込むことで、安全性を形式化する新しいフレームワークである。
BarrierSteerは、敵の成功率を大幅に低下させ、安全でない世代を減少させ、既存の手法より優れていることを示す。
論文 参考訳(メタデータ) (2026-02-23T18:19:46Z) - Omni-Safety under Cross-Modality Conflict: Vulnerabilities, Dynamics Mechanisms and Efficient Alignment [18.100656799320777]
Omni-modal Large Language Models (OLLM) の脆弱性について検討する。
我々は介入強度を適応的に変調するOmniSteerを提案する。
実験により,本手法はすべてのモダリティにまたがる汎用性を効果的に維持できることが示されている。
論文 参考訳(メタデータ) (2026-02-10T06:04:08Z) - CSR-Bench: A Benchmark for Evaluating the Cross-modal Safety and Reliability of MLLMs [10.42126976065225]
MLLM(Multimodal large language model)は、テキストと画像の相互作用を可能にする。
本稿では,クロスモーダル信頼性を評価するベンチマークであるCSR-Benchを紹介する。
我々は16の最先端MLLMを評価し,系統的な相互アライメントギャップを観察した。
論文 参考訳(メタデータ) (2026-02-03T08:49:44Z) - Drift No More? Context Equilibria in Multi-Turn LLM Interactions [58.69551510148673]
コンテキストドリフト(Contexts drift)とは、ターン間のゴール一貫性のある振る舞いからモデルが出力する出力の段階的なばらつきである。
シングルターンエラーとは異なり、ドリフトは時間的に展開し、静的な評価指標では捉えにくい。
マルチターンドリフトは、避けられない崩壊というよりも、制御可能な平衡現象として理解できることを示す。
論文 参考訳(メタデータ) (2025-10-09T04:48:49Z) - COSMO-RL: Towards Trustworthy LMRMs via Joint Safety and Stability [101.80200069234377]
COSMO-RLは,マルチモーダル・マルチタスク・マルチオブジェクト信号下でLMRMを学習する混合強化学習フレームワークである。
我々のアプローチは、アライメント中に競合するのではなく、安全と能力をひとつの安定したパイプラインで一緒に成長させることを目的としています。
論文 参考訳(メタデータ) (2025-10-05T13:30:03Z) - Anchoring Refusal Direction: Mitigating Safety Risks in Tuning via Projection Constraint [52.878820730054365]
インストラクションファインチューニング(IFT)は,大規模言語モデル(LLM)の能力向上のための効果的なポストトレーニング戦略として広く採用されている。
LLMの内部機構に関する最近の研究は、隠蔽状態における拒絶方向(r方向)を同定し、拒絶行動の制御において重要な役割を担っている。
このようなドリフトを緩和するため,提案手法では,各トレーニングサンプルの隠れ状態のr方向への投射の大きさを規則化する投射制約損失項を導入する。
論文 参考訳(メタデータ) (2025-09-08T15:24:33Z) - Efficient Switchable Safety Control in LLMs via Magic-Token-Guided Co-Training [1.5349686675266894]
LLM(Large Language Models)におけるコンテンツ安全性の現在の手法は、マルチステージトレーニングパイプラインに依存している。
複数の安全性挙動を効率的に統合する統合協調学習フレームワークを提案する。
我々は,SFT+DPOの安全アライメント品質に一致し,安全性能においてDeepSeek-R1 (671B) を上回る8Bモデルを示した。
論文 参考訳(メタデータ) (2025-08-12T02:39:33Z) - Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models? [83.53005932513155]
MLLM(Multi-modal large language model)は大きな進歩を遂げているが、その安全性は依然として限られている。
そこで我々は, 単純明快な拒絶文に代えて, 少数の良性命令追従データに対して, MLLMを微調整する手法を提案する。
論文 参考訳(メタデータ) (2025-04-14T09:03:51Z) - Understanding and Rectifying Safety Perception Distortion in VLMs [19.239094089025095]
視覚言語モデル(VLM)は、視覚モダリティを統合した後、有害な要求やジェイルブレイク攻撃の影響を受けやすいものとなる。
マルチモーダル入力は、テキストのみの入力に比べて、モダリティによって誘導されるアクティベーションシフトを"サファー"方向に導入する。
本研究では、モダリティによるアクティベーションシフトを分解・校正し、モダリティの安全性への影響を低減させる訓練自由な手法であるShiftDCを提案する。
論文 参考訳(メタデータ) (2025-02-18T18:06:48Z) - Suppress and Rebalance: Towards Generalized Multi-Modal Face
Anti-Spoofing [26.901402236963374]
Face Anti-Spoofing (FAS) は、顔認証システムのプレゼンテーション攻撃に対する保護に不可欠である。
多くのマルチモーダルなFASアプローチが出現しているが、見当たらない攻撃や展開条件を一般化する上での課題に直面している。
論文 参考訳(メタデータ) (2024-02-29T16:06:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。