論文の概要: JailBound: Jailbreaking Internal Safety Boundaries of Vision-Language Models
- arxiv url: http://arxiv.org/abs/2505.19610v2
- Date: Fri, 30 May 2025 02:38:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 12:43:13.09395
- Title: JailBound: Jailbreaking Internal Safety Boundaries of Vision-Language Models
- Title(参考訳): JailBound:Vision-Languageモデルの内部安全境界を脱獄
- Authors: Jiaxin Song, Yixu Wang, Jie Li, Rui Yu, Yan Teng, Xingjun Ma, Yingchun Wang,
- Abstract要約: VLM(Vision-Language Models)は優れた性能を示すが、強力な視覚エンコーダの統合により攻撃面が大幅に拡張されている。
安全境界探索と安全境界交差という2つの段階からなる新しい遅延宇宙脱獄フレームワークであるJailBoundを提案する。
以上の結果から,JailBoundは平均94.32%のホワイトボックス,67.28%のブラックボックス攻撃を達成し,SOTA法より6.17%,21.13%高い結果を得た。
- 参考スコア(独自算出の注目度): 26.838410830637304
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) exhibit impressive performance, yet the integration of powerful vision encoders has significantly broadened their attack surface, rendering them increasingly susceptible to jailbreak attacks. However, lacking well-defined attack objectives, existing jailbreak methods often struggle with gradient-based strategies prone to local optima and lacking precise directional guidance, and typically decouple visual and textual modalities, thereby limiting their effectiveness by neglecting crucial cross-modal interactions. Inspired by the Eliciting Latent Knowledge (ELK) framework, we posit that VLMs encode safety-relevant information within their internal fusion-layer representations, revealing an implicit safety decision boundary in the latent space. This motivates exploiting boundary to steer model behavior. Accordingly, we propose JailBound, a novel latent space jailbreak framework comprising two stages: (1) Safety Boundary Probing, which addresses the guidance issue by approximating decision boundary within fusion layer's latent space, thereby identifying optimal perturbation directions towards the target region; and (2) Safety Boundary Crossing, which overcomes the limitations of decoupled approaches by jointly optimizing adversarial perturbations across both image and text inputs. This latter stage employs an innovative mechanism to steer the model's internal state towards policy-violating outputs while maintaining cross-modal semantic consistency. Extensive experiments on six diverse VLMs demonstrate JailBound's efficacy, achieves 94.32% white-box and 67.28% black-box attack success averagely, which are 6.17% and 21.13% higher than SOTA methods, respectively. Our findings expose a overlooked safety risk in VLMs and highlight the urgent need for more robust defenses. Warning: This paper contains potentially sensitive, harmful and offensive content.
- Abstract(参考訳): VLM(Vision-Language Models)は優れた性能を示すが、強力なビジョンエンコーダの統合により攻撃面が大幅に拡大し、ジェイルブレイク攻撃の影響を受けやすくなっている。
しかし、適切に定義された攻撃目標が欠如しているため、既存のジェイルブレイク手法は、局所的な最適性や正確な方向指示の欠如による勾配に基づく戦略に苦慮し、視覚的およびテキスト的モダリティを分離し、重要な相互モーダル相互作用を無視して有効性を制限している。
ELK(ELK)フレームワークに着想を得て,VLMは内部融合層表現内に安全関連情報をエンコードし,潜伏空間における暗黙の安全性決定境界を明らかにする。
これにより、バウンダリを利用してモデル動作をステアリングする。
そこで我々は,(1)融合層の潜伏空間における決定境界を近似することで誘導問題に対処し,目的領域への最適な摂動方向を同定する安全境界探索,(2)画像とテキストの入力の両面にわたる対向的摂動を協調的に最適化することで,分離されたアプローチの限界を克服する安全境界交差という2段階からなる新しい潜伏空間ジェイルバウンドを提案する。
この後期段階は、モダル間のセマンティック一貫性を維持しながら、ポリシー違反のアウトプットに対してモデルの内部状態を制御するための革新的なメカニズムを採用している。
6つの多様なVLMに関する大規模な実験は、JailBoundの有効性を示し、平均94.32%のホワイトボックスと67.28%のブラックボックス攻撃が成功し、それぞれSOTA法より6.17%、21.13%高い。
以上の結果から,VLMの安全リスクは見落とされ,より堅牢な防衛の必要性が浮き彫りになった。
警告: 本論文は、潜在的に敏感で有害で攻撃的な内容を含む。
関連論文リスト
- CeTAD: Towards Certified Toxicity-Aware Distance in Vision Language Models [16.5022773312661]
本稿では,ジェイルブレイク攻撃に対する大規模視覚言語モデルの保護を目的とした,普遍的な認証防衛フレームワークを提案する。
まず、悪意のある応答と意図した応答のセマンティックな差異を定量化する新しい距離尺度を提案する。
そして, ランダム化スムーシングを用いて, 形式的堅牢性を保証するための回帰認証手法を考案する。
論文 参考訳(メタデータ) (2025-03-08T17:33:55Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - Shaping the Safety Boundaries: Understanding and Defending Against Jailbreaks in Large Language Models [55.253208152184065]
大規模言語モデル(LLM)におけるジェイルブレークは、LLMを騙して有害なテキストを生成するというセキュリティ上の問題である。
我々は7つの異なるジェイルブレイク法を詳細に分析し、不一致が不十分な観察サンプルから生じることを確認した。
安全境界内でのアクティベーションを適応的に制限する「textbfActivation Boundary Defense (ABD)」という新しい防衛法を提案する。
論文 参考訳(メタデータ) (2024-12-22T14:18:39Z) - BlackDAN: A Black-Box Multi-Objective Approach for Effective and Contextual Jailbreaking of Large Language Models [47.576957746503666]
BlackDANは、多目的最適化を備えた革新的なブラックボックス攻撃フレームワークである。
ジェイルブレイクを効果的に促進する高品質なプロンプトを生成する。
コンテキスト関連性を維持し、検出可能性を最小限にする。
論文 参考訳(メタデータ) (2024-10-13T11:15:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。