論文の概要: Internal Activation Revision: Safeguarding Vision Language Models Without Parameter Update
- arxiv url: http://arxiv.org/abs/2501.16378v1
- Date: Fri, 24 Jan 2025 06:17:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-29 16:43:19.654496
- Title: Internal Activation Revision: Safeguarding Vision Language Models Without Parameter Update
- Title(参考訳): 内部アクティベーションリビジョン:パラメータ更新なしのビジョン言語モデルの保護
- Authors: Qing Li, Jiahui Geng, Zongxiong Chen, Kun Song, Lei Ma, Fakhri Karray,
- Abstract要約: 視覚言語モデル(VLM)は、強いマルチモーダル能力を示すが、有害なコンテンツを生成する可能性が高い。
本稿では,世代ごとのアクティベーションを効率的に修正するテクスブファイナル・アクティベーション・リビジョン・アプローチを提案する。
我々のフレームワークはレイヤーレベルとヘッドレベルの両方のリビジョンを組み込んでおり、モデルの生成を様々なレベルの粒度で制御する。
- 参考スコア(独自算出の注目度): 8.739132798784777
- License:
- Abstract: Vision-language models (VLMs) demonstrate strong multimodal capabilities but have been found to be more susceptible to generating harmful content compared to their backbone large language models (LLMs). Our investigation reveals that the integration of images significantly shifts the model's internal activations during the forward pass, diverging from those triggered by textual input. Moreover, the safety alignments of LLMs embedded within VLMs are not sufficiently robust to handle the activations discrepancies, making the models vulnerable to even the simplest jailbreaking attacks. To address this issue, we propose an \textbf{internal activation revision} approach that efficiently revises activations during generation, steering the model toward safer outputs. Our framework incorporates revisions at both the layer and head levels, offering control over the model's generation at varying levels of granularity. In addition, we explore three strategies for constructing positive and negative samples and two approaches for extracting revision vectors, resulting in different variants of our method. Comprehensive experiments demonstrate that the internal activation revision method significantly improves the safety of widely used VLMs, reducing attack success rates by an average of 48.94\%, 34.34\%, 43.92\%, and 52.98\% on SafeBench, Safe-Unsafe, Unsafe, and MM-SafetyBench, respectively, while minimally impacting model helpfulness.
- Abstract(参考訳): 視覚言語モデル(VLM)は、強力なマルチモーダル能力を示すが、バックボーンの大規模言語モデル(LLM)に比べて有害なコンテンツを生成する可能性が高い。
本研究により,画像の統合は,テキスト入力によって引き起こされるものから,前方通過時のモデル内部の活性化を著しく変化させることが明らかとなった。
さらに、VLM内に埋め込まれたLLMの安全性アライメントは、アクティベーションの相違に対処するのに十分な堅牢性を持っておらず、最も単純なジェイルブレイク攻撃にも脆弱である。
この問題に対処するために、生成中の活性化を効率的に修正し、より安全な出力に向けてモデルを操る、 \textbf{internal activation revision} アプローチを提案する。
我々のフレームワークはレイヤーレベルとヘッドレベルの両方のリビジョンを組み込んでおり、モデルの生成を様々なレベルの粒度で制御する。
さらに,正および負のサンプルを作成するための3つの戦略と,修正ベクトルを抽出するための2つのアプローチについて検討し,その結果,提案手法の異なるバリエーションが得られた。
包括的実験により、内部アクティベーションリビジョン法は広く使用されているVLMの安全性を著しく向上させ、モデル有用性を最小限に抑えつつ、SafeBench, Safe-Unsafe, Unsafe, MM-SafetyBenchの攻撃成功率を平均48.94\%, 34.92\%, 52.98\%削減することを示した。
関連論文リスト
- HiddenDetect: Detecting Jailbreak Attacks against Large Vision-Language Models via Monitoring Hidden States [17.601328965546617]
本研究は,LVLMが内的アクティベーションにおける安全性関連信号を本質的にエンコードしているかどうかを考察する。
その結果,LVLMは安全でないプロンプトを処理する際に,異なる活性化パターンを示すことが明らかとなった。
HiddenDetectは、内部モデルのアクティベーションを活用して安全性を高める、新しいチューニング不要のフレームワークである。
論文 参考訳(メタデータ) (2025-02-20T17:14:34Z) - Understanding and Rectifying Safety Perception Distortion in VLMs [19.239094089025095]
視覚言語モデル(VLM)は、視覚モダリティを統合した後、有害な要求やジェイルブレイク攻撃の影響を受けやすいものとなる。
マルチモーダル入力は、テキストのみの入力に比べて、モダリティによって誘導されるアクティベーションシフトを"サファー"方向に導入する。
本研究では、モダリティによるアクティベーションシフトを分解・校正し、モダリティの安全性への影響を低減させる訓練自由な手法であるShiftDCを提案する。
論文 参考訳(メタデータ) (2025-02-18T18:06:48Z) - Internal Activation as the Polar Star for Steering Unsafe LLM Behavior [50.463399903987245]
SafeSwitchは、モデルの内部状態を監視し、利用することによって、安全でない出力を動的に制御するフレームワークである。
実証実験の結果,SafeSwitchは安全性ベンチマークで80%以上の有害な出力を削減し,有効性を維持していることがわかった。
論文 参考訳(メタデータ) (2025-02-03T04:23:33Z) - Model-Editing-Based Jailbreak against Safety-aligned Large Language Models [13.887770576598646]
大規模言語モデル(LLM)は、先進的な自然言語相互作用を実現することによって、多くの分野を変革してきた。
本稿では,安全フィルタをバイパスする新しいホワイトボックス手法であるターゲットモデル編集(TME)を提案する。
TMEはモデル行列に埋め込まれた安全クリティカルトランスフォーメーション(SCT)を特定し、削除し、悪意のあるクエリが制限をバイパスできるようにする。
論文 参考訳(メタデータ) (2024-12-11T08:44:15Z) - Exploring Visual Vulnerabilities via Multi-Loss Adversarial Search for Jailbreaking Vision-Language Models [92.79804303337522]
VLM(Vision-Language Models)は、安全アライメントの問題に対して脆弱である。
本稿では、シナリオ認識画像生成を利用したセマンティックアライメントのための新しいジェイルブレイクフレームワークであるMLAIを紹介する。
大規模な実験はMLAIの重大な影響を示し、MiniGPT-4で77.75%、LLaVA-2で82.80%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2024-11-27T02:40:29Z) - ShieldGemma: Generative AI Content Moderation Based on Gemma [49.91147965876678]
ShieldGemmaは、Gemma2上に構築された安全コンテンツモデレーションモデルのスイートである。
モデルは、主要な危険タイプにわたる安全リスクの堅牢で最先端の予測を提供する。
論文 参考訳(メタデータ) (2024-07-31T17:48:14Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - Defending Large Language Models Against Attacks With Residual Stream Activation Analysis [0.0]
大規模言語モデル(LLM)は敵の脅威に対して脆弱である。
本稿では, LLM へのホワイトボックスアクセスを前提とした, 革新的な防御戦略を提案する。
そこで本研究では,アタックプロンプト分類のための残差ストリームの固有なアクティベーションパターンを解析するための新しい手法を適用した。
論文 参考訳(メタデータ) (2024-06-05T13:06:33Z) - RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content [62.685566387625975]
現在の緩和戦略は効果はあるものの、敵の攻撃下では弾力性がない。
本稿では,大規模言語モデルのための弾力性ガードレール(RigorLLM)について紹介する。
論文 参考訳(メタデータ) (2024-03-19T07:25:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。