論文の概要: Omni-Safety under Cross-Modality Conflict: Vulnerabilities, Dynamics Mechanisms and Efficient Alignment
- arxiv url: http://arxiv.org/abs/2602.10161v1
- Date: Tue, 10 Feb 2026 06:04:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.204927
- Title: Omni-Safety under Cross-Modality Conflict: Vulnerabilities, Dynamics Mechanisms and Efficient Alignment
- Title(参考訳): クロスモーダル・コンフリクト下におけるオムニ・セーフティ : 脆弱性, ダイナミクス機構, 効率的なアライメント
- Authors: Kun Wang, Zherui Li, Zhenhong Zhou, Yitong Zhang, Yan Mi, Kun Yang, Yiming Zhang, Junhao Dong, Zhongxiang Sun, Qiankun Li, Yang Liu,
- Abstract要約: Omni-modal Large Language Models (OLLM) の脆弱性について検討する。
我々は介入強度を適応的に変調するOmniSteerを提案する。
実験により,本手法はすべてのモダリティにまたがる汎用性を効果的に維持できることが示されている。
- 参考スコア(独自算出の注目度): 18.100656799320777
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Omni-modal Large Language Models (OLLMs) greatly expand LLMs' multimodal capabilities but also introduce cross-modal safety risks. However, a systematic understanding of vulnerabilities in omni-modal interactions remains lacking. To bridge this gap, we establish a modality-semantics decoupling principle and construct the AdvBench-Omni dataset, which reveals a significant vulnerability in OLLMs. Mechanistic analysis uncovers a Mid-layer Dissolution phenomenon driven by refusal vector magnitude shrinkage, alongside the existence of a modal-invariant pure refusal direction. Inspired by these insights, we extract a golden refusal vector using Singular Value Decomposition and propose OmniSteer, which utilizes lightweight adapters to modulate intervention intensity adaptively. Extensive experiments show that our method not only increases the Refusal Success Rate against harmful inputs from 69.9% to 91.2%, but also effectively preserves the general capabilities across all modalities. Our code is available at: https://github.com/zhrli324/omni-safety-research.
- Abstract(参考訳): Omni-modal Large Language Models (OLLM)は、LLMのマルチモーダル能力を大幅に拡張すると同時に、クロスモーダル安全性のリスクも導入する。
しかし、オムニモダル相互作用における脆弱性の体系的な理解は依然として欠如している。
このギャップを埋めるため、モダリティ・セマンティック・デカップリングの原理を確立し、AdvBench-Omniデータセットを構築し、OLLMの重大な脆弱性を明らかにする。
力学解析により、モダル不変な純粋なリファレンス方向の存在とともに、リファレンスベクトルサイズの縮小によって引き起こされる中層溶解現象が明らかになった。
これらの知見に触発されて,Singular Value Decomposition を用いてゴールデンリフェールベクトルを抽出し,軽量アダプタを用いて介入強度を適応的に変調するOmniSteerを提案する。
本手法は, 有害入力に対する拒絶成功率を69.9%から91.2%に引き上げるだけでなく, 全モダリティの汎用性を効果的に維持できることを示す。
私たちのコードは、https://github.com/zhrli324/omni-safety-researchで公開されています。
関連論文リスト
- DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - When Safe Unimodal Inputs Collide: Optimizing Reasoning Chains for Cross-Modal Safety in Multimodal Large Language Models [50.66979825532277]
我々は、クロスモーダルチャレンジに適した解釈可能な推論パスを備えた最初のデータセットであるSSUI(Safe-Semantics-but-Unsafe-Interpretation)を紹介した。
新たなトレーニングフレームワークであるSRPO(Safety-Aware Reasoning Path Optimization)も、SSUIデータセットに基づいて設計されている。
実験の結果, SRPO学習モデルでは, キーセーフティベンチマークで最先端の結果が得られた。
論文 参考訳(メタデータ) (2025-09-15T15:40:58Z) - Align is not Enough: Multimodal Universal Jailbreak Attack against Multimodal Large Language Models [83.80177564873094]
マルチモーダル・ユニバーサル・ジェイルブレイク・アタック・フレームワークを提案する。
LLaVA,Yi-VL,MiniGPT4,MiniGPT-v2,InstructBLIPなどのMLLMの望ましくないコンテキスト生成を評価する。
本研究は,MLLMにおける堅牢な安全対策の必要性を浮き彫りにするものである。
論文 参考訳(メタデータ) (2025-06-02T04:33:56Z) - Representation Bending for Large Language Model Safety [27.842146980762934]
大きな言語モデル(LLM)は強力なツールとして登場したが、その固有の安全性のリスクは重大な課題を引き起こしている。
本稿では,LLMにおける有害行動の表現を根本的に破壊する新しい手法であるRepBendを紹介する。
RepBendは最先端のパフォーマンスを達成し、Circuit Breaker、RMU、NPOといった従来の手法よりも優れ、攻撃成功率を最大95%削減する。
論文 参考訳(メタデータ) (2025-04-02T09:47:01Z) - RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content [62.685566387625975]
現在の緩和戦略は効果はあるものの、敵の攻撃下では弾力性がない。
本稿では,大規模言語モデルのための弾力性ガードレール(RigorLLM)について紹介する。
論文 参考訳(メタデータ) (2024-03-19T07:25:02Z) - Suppress and Rebalance: Towards Generalized Multi-Modal Face
Anti-Spoofing [26.901402236963374]
Face Anti-Spoofing (FAS) は、顔認証システムのプレゼンテーション攻撃に対する保護に不可欠である。
多くのマルチモーダルなFASアプローチが出現しているが、見当たらない攻撃や展開条件を一般化する上での課題に直面している。
論文 参考訳(メタデータ) (2024-02-29T16:06:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。