論文の概要: Understanding and Defending VLM Jailbreaks via Jailbreak-Related Representation Shift
- arxiv url: http://arxiv.org/abs/2603.17372v1
- Date: Wed, 18 Mar 2026 05:31:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.521396
- Title: Understanding and Defending VLM Jailbreaks via Jailbreak-Related Representation Shift
- Title(参考訳): ジェイルブレイク関連表現シフトによるVLMジェイルブレイクの理解と防御
- Authors: Zhihua Wei, Qiang Li, Jian Ruan, Zhenxin Qin, Leilei Wen, Dongrui Liu, Wen Shen,
- Abstract要約: 大きな視覚言語モデル(VLM)は、視覚的モダリティの統合による安全性の低下を示すことが多い。
我々は、有害な意図を認識できないことから脱獄が起こらないことを示す。
本稿では,投機時間における脱獄関連シフトを除去し,VLMの安全性を高める防衛手法を提案する。
- 参考スコア(独自算出の注目度): 16.987945448229105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large vision-language models (VLMs) often exhibit weakened safety alignment with the integration of the visual modality. Even when text prompts contain explicit harmful intent, adding an image can substantially increase jailbreak success rates. In this paper, we observe that VLMs can clearly distinguish benign inputs from harmful ones in their representation space. Moreover, even among harmful inputs, jailbreak samples form a distinct internal state that is separable from refusal samples. These observations suggest that jailbreaks do not arise from a failure to recognize harmful intent. Instead, the visual modality shifts representations toward a specific jailbreak state, thereby leading to a failure to trigger refusal. To quantify this transition, we identify a jailbreak direction and define the jailbreak-related shift as the component of the image-induced representation shift along this direction. Our analysis shows that the jailbreak-related shift reliably characterizes jailbreak behavior, providing a unified explanation for diverse jailbreak scenarios. Finally, we propose a defense method that enhances VLM safety by removing the jailbreak-related shift (JRS-Rem) at inference time. Experiments show that JRS-Rem provides strong defense across multiple scenarios while preserving performance on benign tasks.
- Abstract(参考訳): 大きな視覚言語モデル(VLM)は、視覚的モダリティの統合による安全性の低下を示すことが多い。
テキストプロンプトが明らかな有害な意図を含む場合でも、イメージを追加することで、ジェイルブレイクの成功率を大幅に向上させることができる。
本稿では,VLMが表現空間内の有害な入力と明確に区別できることを観察する。
さらに、有害な入力であっても、ジェイルブレイクサンプルは、拒絶サンプルから分離可能な独立した内部状態を形成する。
これらの観察から、脱獄は有害な意図を認識できないことから起こらないことが示唆された。
その代わり、視覚的モダリティは表現を特定のジェイルブレイク状態にシフトさせるため、拒否を誘発することができない。
この遷移を定量化するために、ジェイルブレイク方向を特定し、ジェイルブレイク関連シフトを、この方向に沿った画像誘発表現シフトの構成要素として定義する。
我々の分析によると、ジェイルブレイクに関連するシフトはジェイルブレイクの挙動を確実に特徴付けており、多様なジェイルブレイクシナリオの統一的な説明を提供する。
最後に,Jailbreak関連シフト(JRS-Rem)を推論時に除去することにより,VLMの安全性を高める防衛手法を提案する。
実験の結果,JRS-Remは複数のシナリオにまたがって強力な防御を提供し,良質なタスクのパフォーマンスを保っていることがわかった。
関連論文リスト
- Imperceptible Jailbreaking against Large Language Models [107.76039200173528]
変分セレクタと呼ばれるUnicode文字のクラスを利用する非受容ジェイルブレイクを導入する。
目に見えない変分セレクタを悪意のある質問に追加することで、ジェイルブレイクプロンプトは画面上の元の悪意のある質問と視覚的に同じように見える。
本研究では,このような逆接尾辞を生成し,有害な応答を誘導する探索パイプラインを提案する。
論文 参考訳(メタデータ) (2025-10-06T17:03:50Z) - LLM Jailbreak Detection for (Almost) Free! [62.466970731998714]
大規模言語モデル(LLM)は、広く使用されている場合、アライメントを通じてセキュリティを高めるが、ジェイルブレイク攻撃の影響を受けない。
ジェイルブレイク検出方法は、他のモデルや複数のモデル推論の助けを借りて、ジェイルブレイク攻撃を緩和する。
本稿では,入力に対する肯定的な指示を前提としたフリージェイルブレイク検出(FJD)を提案する。
論文 参考訳(メタデータ) (2025-09-18T02:42:52Z) - JBShield: Defending Large Language Models from Jailbreak Attacks through Activated Concept Analysis and Manipulation [22.75124155879712]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に弱いままである。
本稿では,JBShield-DとJBShield-Mの2つの主要コンポーネントからなる総合的ジェイルブレイク防御フレームワークJBShieldを提案する。
論文 参考訳(メタデータ) (2025-02-11T13:50:50Z) - JailbreakLens: Interpreting Jailbreak Mechanism in the Lens of Representation and Circuit [12.392258585661446]
大規模言語モデル(LLM)はジェイルブレイク攻撃に対して脆弱であり、敵のプロンプトはセキュリティメカニズムをバイパスし、予期せぬ応答を誘発する。
本稿では,Jailbreak機構を表現と回路の両方の観点から解析する解釈フレームワークであるJailbreakLensを提案する。
論文 参考訳(メタデータ) (2024-11-17T16:08:34Z) - IDEATOR: Jailbreaking and Benchmarking Large Vision-Language Models Using Themselves [70.43466586161345]
IDEATORは、ブラックボックスジェイルブレイク攻撃のための悪意のある画像テキストペアを自律的に生成する新しいジェイルブレイク手法である。
最近リリースされたVLM11のベンチマーク結果から,安全性の整合性に大きなギャップがあることが判明した。
例えば、我々はASRをGPT-4oで46.31%、Claude-3.5-Sonnetで19.65%と設定した。
論文 参考訳(メタデータ) (2024-10-29T07:15:56Z) - EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。
LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。
本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文 参考訳(メタデータ) (2024-08-07T07:46:08Z) - Understanding Jailbreak Success: A Study of Latent Space Dynamics in Large Language Models [4.547063832007314]
単一のクラスからジェイルブレイクベクトルを抽出することで、他のセマンティックな異なるクラスからジェイルブレイクの有効性を緩和することができる。
有害性特徴抑制の潜在的共通メカニズムについて検討し、有効なジェイルブレイクが即時有害性に対するモデルの認識を著しく低下させる証拠を見出した。
論文 参考訳(メタデータ) (2024-06-13T16:26:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。