論文の概要: Diagnosing and Repairing Unsafe Channels in Vision-Language Models via Causal Discovery and Dual-Modal Safety Subspace Projection
- arxiv url: http://arxiv.org/abs/2603.27240v1
- Date: Sat, 28 Mar 2026 11:31:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.861388
- Title: Diagnosing and Repairing Unsafe Channels in Vision-Language Models via Causal Discovery and Dual-Modal Safety Subspace Projection
- Title(参考訳): 因果発見とデュアルモーダル・セーフ・サブスペース・プロジェクションによる視覚言語モデルにおける安全でないチャネルの診断と修復
- Authors: Jinhu Fu, Yihang Lou, Qingyi Si, Shudong Zhang, Yan Bai, Sen Su,
- Abstract要約: 本稿では,LVLM(Large Vision-Language Models)における安全でないチャネルの診断と修復のための包括的フレームワークを提案する。
まず、安全でない行動に因果的に責任を負うニューロンや層を特定するために、因果媒介分析を行う。
本稿では、視覚的・テキスト的両モードの汎用安全部分空間を学習するデュアルモーダル・セーフティ・サブスペース・プロジェクション法を提案する。
- 参考スコア(独自算出の注目度): 21.411964269762432
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision-Language Models (LVLMs) have achieved impressive performance across multimodal understanding and reasoning tasks, yet their internal safety mechanisms remain opaque and poorly controlled. In this work, we present a comprehensive framework for diagnosing and repairing unsafe channels within LVLMs (CARE). We first perform causal mediation analysis to identify neurons and layers that are causally responsible for unsafe behaviors. Based on these findings, we introduce a dual-modal safety subspace projection method that learns generalized safety subspaces for both visual and textual modalities through generalized eigen-decomposition between benign and malicious activations. During inference, activations are dynamically projected toward these safety subspaces via a hybrid fusion mechanism that adaptively balances visual and textual corrections, effectively suppressing unsafe features while preserving semantic fidelity. Extensive experiments on multiple safety benchmarks demonstrate that our causal-subspace repair framework significantly enhances safety robustness without degrading general multimodal capabilities, outperforming prior activation steering and alignment-based baselines. Additionally, our method exhibits good transferability, defending against unseen attacks.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、マルチモーダルな理解と推論タスクにまたがる優れた性能を達成しているが、内部の安全性メカニズムは不透明で制御が不十分である。
本研究では,LVLM内の安全でないチャネルを診断し,修復するための包括的枠組みを提案する。
まず、安全でない行動に因果的に責任を負うニューロンや層を特定するために、因果媒介分析を行う。
そこで本研究では,視覚的・テキスト的モダリティの汎用的安全部分空間を,良性・悪意的アクティベーションの汎用的固有分解により学習する,デュアルモーダル型安全部分空間投影法を提案する。
推論中、アクティベーションは、視覚とテキストの補正を適応的にバランスさせるハイブリッド融合機構を介してこれらの安全部分空間に向けて動的に投影され、意味的忠実性を維持しながら、安全でない特徴を効果的に抑制する。
複数の安全ベンチマークにおいて、我々の因果補修フレームワークは、一般的なマルチモーダル能力を低下させることなく安全性を著しく向上させ、事前のアクティベーションステアリングやアライメントベースラインよりも優れていることを示す。
さらに,本手法は不審な攻撃を防ぎ,良好な転送性を示す。
関連論文リスト
- Unsafe by Reciprocity: How Generation-Understanding Coupling Undermines Safety in Unified Multimodal Models [53.41258113970795]
統一マルチモーダルモデル(UMM)における相互機能相互性自体が脆弱性の構造的源となっているかを検討する。
相互相互作用に基づくクロスファンクショナル・ファンクショナル・エクスプロイテーションは, 理解と生成の間の双方向の相互作用を明示的に活用する, 新たな攻撃パラダイムである。
論文 参考訳(メタデータ) (2026-03-28T16:28:39Z) - BarrierSteer: LLM Safety via Learning Barrier Steering [83.12893815611052]
BarrierSteerは、学習した非線形安全性制約を直接モデルの潜在表現空間に埋め込むことで、安全性を形式化する新しいフレームワークである。
BarrierSteerは、敵の成功率を大幅に低下させ、安全でない世代を減少させ、既存の手法より優れていることを示す。
論文 参考訳(メタデータ) (2026-02-23T18:19:46Z) - Self-Guard: Defending Large Reasoning Models via enhanced self-reflection [54.775612141528164]
Self-Guardは、大規模推論モデルのための軽量な安全防御フレームワークである。
これは認識とコンプライアンスのギャップを埋め、モデルユーティリティを損なうことなく堅牢な安全性能を達成する。
セルフガードは、さまざまな未知のリスクとさまざまなモデルスケールにまたがる強力な一般化を示す。
論文 参考訳(メタデータ) (2026-01-31T13:06:11Z) - Attributing and Exploiting Safety Vectors through Global Optimization in Large Language Models [50.91504059485288]
本報告では,全頭部のグローバルな最適化により,安全クリティカルな注意点を同時に識別するフレームワークを提案する。
我々は,アクティベーション・リマッチによって同定された安全ベクトルを利用する,新しい推論時ホワイトボックス・ジェイルブレイク法を開発した。
論文 参考訳(メタデータ) (2026-01-22T09:32:43Z) - Breaking the Safety-Capability Tradeoff: Reinforcement Learning with Verifiable Rewards Maintains Safety Guardrails in LLMs [3.198812241868092]
検証可能な報酬(RLVR)による強化学習は、客観的に測定可能なタスクのモデルを最適化する有望な代替手段として登場した。
RLVRにおける安全特性の総合的・実証的な分析を行った。
実証実験により,RLVRは安全ガードレールの維持・改善を図りながら推論能力を同時に向上できることを示す。
論文 参考訳(メタデータ) (2025-11-26T04:36:34Z) - LatentGuard: Controllable Latent Steering for Robust Refusal of Attacks and Reliable Response Generation [4.29885665563186]
LATENTGUARDは、行動アライメントと教師付き潜在空間制御を組み合わせて、解釈可能で正確な安全操縦を行うフレームワークである。
本研究は, 実用性を損なうことなく, 安全性制御性と応答解釈性の両方を向上することを示す。
論文 参考訳(メタデータ) (2025-09-24T07:31:54Z) - Self-Aware Safety Augmentation: Leveraging Internal Semantic Understanding to Enhance Safety in Vision-Language Models [21.961325147038867]
大規模視覚言語モデル(LVLM)は、言語のみのバックボーンと比較して有害な入力に対して脆弱である。
我々はこれらの能力を、言語表現の安全性認識、意味理解、アライメントとして定義する。
これらの知見に触発され,従来の安全指向層に情報的意味表現を投影する技術である textbfSelf-Aware Safety Augmentation (SASA) を提案する。
論文 参考訳(メタデータ) (2025-07-29T09:48:57Z) - HoliSafe: Holistic Safety Benchmarking and Modeling for Vision-Language Model [58.12612140992874]
我々は、安全で安全でない5つの画像テキストの組み合わせにまたがる、全体的な安全データセットとベンチマークである textbfHoliSafeを紹介した。
また,入力画像の有害性を評価するために,視覚ガードモジュール(VGM)を用いて,VLMの安全性を高めるための新しいモジュラーフレームワークを提案する。
実験により、HoliSafeでトレーニングされたVGMを使用したSafe-VLMは、複数のVLMベンチマークで最先端の安全性能を実現していることがわかった。
論文 参考訳(メタデータ) (2025-06-05T07:26:34Z) - Understanding and Rectifying Safety Perception Distortion in VLMs [19.239094089025095]
視覚言語モデル(VLM)は、視覚モダリティを統合した後、有害な要求やジェイルブレイク攻撃の影響を受けやすいものとなる。
マルチモーダル入力は、テキストのみの入力に比べて、モダリティによって誘導されるアクティベーションシフトを"サファー"方向に導入する。
本研究では、モダリティによるアクティベーションシフトを分解・校正し、モダリティの安全性への影響を低減させる訓練自由な手法であるShiftDCを提案する。
論文 参考訳(メタデータ) (2025-02-18T18:06:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。