論文の概要: Risk Awareness Injection: Calibrating Vision-Language Models for Safety without Compromising Utility
- arxiv url: http://arxiv.org/abs/2602.03402v1
- Date: Tue, 03 Feb 2026 11:26:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.415001
- Title: Risk Awareness Injection: Calibrating Vision-Language Models for Safety without Compromising Utility
- Title(参考訳): リスク意識注入: 実用性を損なうことなく安全のためのビジョンランゲージモデルの校正
- Authors: Mengxuan Wang, Yuxin Chen, Gang Xu, Tao He, Hongjie Jiang, Ming Li,
- Abstract要約: 視覚言語モデル(VLM)は、大きな言語モデル(LLM)の推論能力を、モード間設定に拡張する。
既存の防衛は、安全性の微調整や攻撃的なトークン操作に頼っており、相当な訓練コストや性能の大幅な低下を招いている。
安全校正のための軽量かつトレーニング不要なフレームワークであるリスク意識注入(RAI)を提案する。
- 参考スコア(独自算出の注目度): 26.564913442069866
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision language models (VLMs) extend the reasoning capabilities of large language models (LLMs) to cross-modal settings, yet remain highly vulnerable to multimodal jailbreak attacks. Existing defenses predominantly rely on safety fine-tuning or aggressive token manipulations, incurring substantial training costs or significantly degrading utility. Recent research shows that LLMs inherently recognize unsafe content in text, and the incorporation of visual inputs in VLMs frequently dilutes risk-related signals. Motivated by this, we propose Risk Awareness Injection (RAI), a lightweight and training-free framework for safety calibration that restores LLM-like risk recognition by amplifying unsafe signals in VLMs. Specifically, RAI constructs an Unsafe Prototype Subspace from language embeddings and performs targeted modulation on selected high-risk visual tokens, explicitly activating safety-critical signals within the cross-modal feature space. This modulation restores the model's LLM-like ability to detect unsafe content from visual inputs, while preserving the semantic integrity of original tokens for cross-modal reasoning. Extensive experiments across multiple jailbreak and utility benchmarks demonstrate that RAI substantially reduces attack success rate without compromising task performance.
- Abstract(参考訳): 視覚言語モデル (VLM) は、大規模言語モデル (LLM) の推論能力を、多モードのジェイルブレイク攻撃に対して脆弱でありながら、クロスモーダルな設定にまで拡張する。
既存の防衛は、安全の微調整や攻撃的なトークン操作に大きく依存しており、相当な訓練コストや性能の大幅な低下を招いている。
近年の研究では、LLMはテキスト中の安全でない内容を本質的に認識し、VLMに視覚入力を組み込むことでリスク関連信号が希薄化していることが示されている。
リスク意識注入(RAI: Risk Awareness Injection)は、安全校正のための軽量で訓練のないフレームワークであり、VLMにおける安全でない信号を増幅することにより、LLMのようなリスク認識を復元する。
具体的には、言語埋め込みからUnsafe Prototype Subspaceを構築し、選択されたハイリスクな視覚トークンに対してターゲット変調を行い、クロスモーダルな特徴空間内で安全クリティカルな信号を明示的に活性化する。
この変調は、モデルのLLMライクな能力を回復し、視覚的な入力から安全でないコンテンツを検出すると同時に、クロスモーダル推論のためのオリジナルのトークンのセマンティックな整合性を保っている。
複数のjailbreakとユーティリティベンチマークにわたる大規模な実験は、RAIがタスクパフォーマンスを損なうことなく、攻撃の成功率を大幅に低下させることを示した。
関連論文リスト
- SafeRedir: Prompt Embedding Redirection for Robust Unlearning in Image Generation Models [67.84174763413178]
我々はSafeRedirを紹介した。SafeRedirは、迅速な埋め込みリダイレクトによる堅牢なアンラーニングのための軽量な推論時フレームワークである。
SafeRedirは,効果的な非学習能力,意味的・知覚的保存能力,堅牢な画像品質,対人攻撃に対する耐性の向上を実現している。
論文 参考訳(メタデータ) (2026-01-13T15:01:38Z) - Secure Tug-of-War (SecTOW): Iterative Defense-Attack Training with Reinforcement Learning for Multimodal Model Security [63.41350337821108]
マルチモーダル大規模言語モデル(MLLM)のセキュリティを高めるために,Secure Tug-of-War(SecTOW)を提案する。
SecTOWは2つのモジュールで構成される:ディフェンダーと補助攻撃者。どちらも強化学習(GRPO)を使用して反復的に訓練される。
SecTOWは、一般的な性能を維持しながら、セキュリティを大幅に改善することを示す。
論文 参考訳(メタデータ) (2025-07-29T17:39:48Z) - SafePTR: Token-Level Jailbreak Defense in Multimodal LLMs via Prune-then-Restore Mechanism [123.54980913741828]
MLLM(Multimodal Large Language Models)は、視覚的推論をサポートするためにLLMを拡張する。
MLLMは、マルチモーダルなジェイルブレイク攻撃や安全なデプロイメントを妨げる可能性がある。
セーフ・プルー・テン・レストア(Safe Prune-then-Restore, SafePTR)は、有害なトークンを脆弱な層で選択的にプルーすると同時に、その後の層で良質な機能を復元する、トレーニング不要の防御フレームワークである。
論文 参考訳(メタデータ) (2025-07-02T09:22:03Z) - The Safety Reminder: A Soft Prompt to Reactivate Delayed Safety Awareness in Vision-Language Models [4.27794555931853]
VLM(Vision-Language Models)は、そのマルチモーダルな性質からユニークな脆弱性に直面しており、敵は安全ガードレールをバイパスし、有害なコンテンツを生成することができる。
The Safety Reminder'は,テキスト生成プロセス中に定期的に注入される学習可能なプロンプトトークンを最適化し,安全意識を高めるソフトプロンプトチューニング手法である。
論文 参考訳(メタデータ) (2025-06-15T12:48:38Z) - Shape it Up! Restoring LLM Safety during Finetuning [65.75757313781104]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。
動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。
STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文 参考訳(メタデータ) (2025-05-22T18:05:16Z) - Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models? [83.53005932513155]
MLLM(Multi-modal large language model)は大きな進歩を遂げているが、その安全性は依然として限られている。
そこで我々は, 単純明快な拒絶文に代えて, 少数の良性命令追従データに対して, MLLMを微調整する手法を提案する。
論文 参考訳(メタデータ) (2025-04-14T09:03:51Z) - HiddenDetect: Detecting Jailbreak Attacks against Large Vision-Language Models via Monitoring Hidden States [17.601328965546617]
本研究は,LVLMが内的アクティベーションにおける安全性関連信号を本質的にエンコードしているかどうかを考察する。
その結果,LVLMは安全でないプロンプトを処理する際に,異なる活性化パターンを示すことが明らかとなった。
HiddenDetectは、内部モデルのアクティベーションを活用して安全性を高める、新しいチューニング不要のフレームワークである。
論文 参考訳(メタデータ) (2025-02-20T17:14:34Z) - LLMs know their vulnerabilities: Uncover Safety Gaps through Natural Distribution Shifts [88.96201324719205]
大規模言語モデル(LLM)の安全性に関する懸念は、事前訓練中に潜在的に有害なデータに曝されることにより、大きな注目を集めている。
我々は、有害なコンテンツに意味的に関連していると思われる良心的なプロンプトが、安全性のメカニズムを回避できる新しい安全性脆弱性をLSMで特定する。
我々は,事前学習における有害なプロンプトに関連するアクターを識別する新しい攻撃手法,textitActorBreakerを導入する。
論文 参考訳(メタデータ) (2024-10-14T16:41:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。