論文の概要: The Safety Reminder: A Soft Prompt to Reactivate Delayed Safety Awareness in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2506.15734v1
- Date: Sun, 15 Jun 2025 12:48:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:04.744183
- Title: The Safety Reminder: A Soft Prompt to Reactivate Delayed Safety Awareness in Vision-Language Models
- Title(参考訳): 安全リマインダー:視覚・言語モデルにおける遅延安全意識を回復させるソフトプロンプト
- Authors: Peiyuan Tang, Haojie Xin, Xiaodong Zhang, Jun Sun, Qin Xia, Zijiang Yang,
- Abstract要約: VLM(Vision-Language Models)は、そのマルチモーダルな性質からユニークな脆弱性に直面しており、敵は安全ガードレールをバイパスし、有害なコンテンツを生成することができる。
The Safety Reminder'は,テキスト生成プロセス中に定期的に注入される学習可能なプロンプトトークンを最適化し,安全意識を高めるソフトプロンプトチューニング手法である。
- 参考スコア(独自算出の注目度): 4.27794555931853
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As Vision-Language Models (VLMs) demonstrate increasing capabilities across real-world applications such as code generation and chatbot assistance, ensuring their safety has become paramount. Unlike traditional Large Language Models (LLMs), VLMs face unique vulnerabilities due to their multimodal nature, allowing adversaries to modify visual or textual inputs to bypass safety guardrails and trigger the generation of harmful content. Through systematic analysis of VLM behavior under attack, we identify a novel phenomenon termed ``delayed safety awareness''. Specifically, we observe that safety-aligned VLMs may initially be compromised to produce harmful content, but eventually recognize the associated risks and attempt to self-correct. This pattern suggests that VLMs retain their underlying safety awareness but experience a temporal delay in their activation. Building on this insight, we hypothesize that VLMs' safety awareness can be proactively reactivated through carefully designed prompts. To this end, we introduce ``The Safety Reminder'', a soft prompt tuning approach that optimizes learnable prompt tokens, which are periodically injected during the text generation process to enhance safety awareness, effectively preventing harmful content generation. Additionally, our safety reminder only activates when harmful content is detected, leaving normal conversations unaffected and preserving the model's performance on benign tasks. Through comprehensive evaluation across three established safety benchmarks and one adversarial attacks, we demonstrate that our approach significantly reduces attack success rates while maintaining model utility, offering a practical solution for deploying safer VLMs in real-world applications.
- Abstract(参考訳): VLM(Vision-Language Models)は、コード生成やチャットボットアシストといった現実世界のアプリケーションにまたがる機能向上を示すため、安全性が最重要になっている。
従来のLarge Language Models (LLMs) とは異なり、VLMはマルチモーダル性のためにユニークな脆弱性に直面しており、敵は安全ガードレールをバイパスして有害なコンテンツを生成するために視覚的またはテキスト的な入力を変更できる。
攻撃時のVLM行動の系統的解析を通じて,「遅延安全意識」と呼ばれる新しい現象を同定する。
具体的には、安全に配慮したVLMは、当初は有害なコンテンツを生成するために妥協されるが、最終的には関連するリスクを認識し、自己修正を試みる。
このパターンは、VLMが基盤となる安全意識を維持するが、アクティベーションの一時的な遅延を経験することを示唆している。
この知見に基づいて、慎重に設計されたプロンプトによって、VLMの安全意識が積極的に活性化できるという仮説を立てる。
この目的のために,テキスト生成プロセス中に定期的に注入され,安全意識を高め,有害なコンテンツ生成を効果的に防止する,学習可能なプロンプトトークンを最適化するソフトプロンプトチューニング手法である ‘The Safety Reminder' を導入する。
さらに、有害なコンテンツが検出された場合にのみ安全リマインダーが起動し、通常の会話が影響を受けないようにし、良質なタスクでモデルのパフォーマンスを保留する。
3つの確立された安全性ベンチマークと1つの敵攻撃を総合的に評価することにより、本手法がモデルユーティリティを維持しながら攻撃成功率を大幅に低減し、より安全なVLMを現実のアプリケーションにデプロイする実用的なソリューションを提供することを示した。
関連論文リスト
- HoliSafe: Holistic Safety Benchmarking and Modeling with Safety Meta Token for Vision-Language Model [52.72318433518926]
既存の安全チューニングデータセットとベンチマークは、画像とテキストの相互作用が有害なコンテンツを生み出す方法を部分的に考慮しているだけである。
私たちは、安全で安全でない5つの画像とテキストの組み合わせにまたがる、全体安全データセットとベンチマークであるHoliSafeを紹介します。
我々は,学習可能な安全メタトークンと専用の安全ヘッドを備えた新しいVLMであるSafeLLaVAを提案する。
論文 参考訳(メタデータ) (2025-06-05T07:26:34Z) - Shape it Up! Restoring LLM Safety during Finetuning [66.46166656543761]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。
動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。
STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文 参考訳(メタデータ) (2025-05-22T18:05:16Z) - SafeKey: Amplifying Aha-Moment Insights for Safety Reasoning [76.56522719330911]
大規模推論モデル(LRM)は、応答する前に明示的に推論する新しい世代パラダイムを導入する。
LRMは有害なクエリや敵の攻撃に対して大きな安全リスクをもたらす。
キー文中の安全アハモーメントをより活性化するSafeKeyを提案する。
論文 参考訳(メタデータ) (2025-05-22T03:46:03Z) - Safety Mirage: How Spurious Correlations Undermine VLM Safety Fine-tuning [23.71517734919702]
視覚言語モデル(VLM)は多モード入力を用いた生成モデルにおいて顕著な進歩を遂げている。
現在のアライメント戦略は、キュレートされたデータセットによる監視された安全性の微調整に依存している。
教師付き微調整は,表面テクスチャパターンと安全応答の急激な相関を必然的に強化することを示す。
論文 参考訳(メタデータ) (2025-03-14T19:52:08Z) - Tit-for-Tat: Safeguarding Large Vision-Language Models Against Jailbreak Attacks via Adversarial Defense [90.71884758066042]
大きな視覚言語モデル(LVLM)は、視覚入力による悪意のある攻撃に対する感受性という、ユニークな脆弱性を導入している。
本稿では,脆弱性発生源からアクティブ防衛機構へ視覚空間を変換するための新しい手法であるESIIIを提案する。
論文 参考訳(メタデータ) (2025-03-14T17:39:45Z) - Understanding and Rectifying Safety Perception Distortion in VLMs [19.239094089025095]
視覚言語モデル(VLM)は、視覚モダリティを統合した後、有害な要求やジェイルブレイク攻撃の影響を受けやすいものとなる。
マルチモーダル入力は、テキストのみの入力に比べて、モダリティによって誘導されるアクティベーションシフトを"サファー"方向に導入する。
本研究では、モダリティによるアクティベーションシフトを分解・校正し、モダリティの安全性への影響を低減させる訓練自由な手法であるShiftDCを提案する。
論文 参考訳(メタデータ) (2025-02-18T18:06:48Z) - SafeSwitch: Steering Unsafe LLM Behavior via Internal Activation Signals [50.463399903987245]
大規模言語モデル(LLM)は、様々なタスクにまたがる例外的な能力を示すが、有害なコンテンツを生成することでリスクを引き起こす。
LLMは、内部状態の安全性に関する内部評価を同様に行うことができることを示す。
本稿では,プロバーをベースとした内部状態モニタを用いて,安全でない出力を規制するSafeSwitchを提案する。
論文 参考訳(メタデータ) (2025-02-03T04:23:33Z) - Spot Risks Before Speaking! Unraveling Safety Attention Heads in Large Vision-Language Models [9.318094073527563]
大規模視覚言語モデル(LVLM)の内部アクティベーションは、異なる攻撃に対して悪意のあるプロンプトを識別することができる。
この固有の安全性の認識は、私たちが安全の頭と呼ぶ、まばらな注意の頭によって支配されている」。
これらの安全ヘッドを配置し、それらのアクティベーションを連結することにより、単純だが強力な悪意のあるプロンプト検出器を構築する。
論文 参考訳(メタデータ) (2025-01-03T07:01:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。