論文の概要: JailBound: Jailbreaking Internal Safety Boundaries of Vision-Language Models
- arxiv url: http://arxiv.org/abs/2505.19610v1
- Date: Mon, 26 May 2025 07:23:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.242201
- Title: JailBound: Jailbreaking Internal Safety Boundaries of Vision-Language Models
- Title(参考訳): JailBound:Vision-Languageモデルの内部安全境界を脱獄
- Authors: Jiaxin Song, Yixu Wang, Jie Li, Rui Yu, Yan Teng, Xingjun Ma, Yingchun Wang,
- Abstract要約: VLM(Vision-Language Models)は優れた性能を示すが、強力な視覚エンコーダの統合により攻撃面が大幅に拡張されている。
安全境界探索と安全境界交差という2つの段階からなる新しい遅延宇宙脱獄フレームワークであるJailBoundを提案する。
以上の結果から,JailBoundは平均94.32%のホワイトボックス,67.28%のブラックボックス攻撃を達成し,SOTA法より6.17%,21.13%高い結果を得た。
- 参考スコア(独自算出の注目度): 26.838410830637304
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) exhibit impressive performance, yet the integration of powerful vision encoders has significantly broadened their attack surface, rendering them increasingly susceptible to jailbreak attacks. However, lacking well-defined attack objectives, existing jailbreak methods often struggle with gradient-based strategies prone to local optima and lacking precise directional guidance, and typically decouple visual and textual modalities, thereby limiting their effectiveness by neglecting crucial cross-modal interactions. Inspired by the Eliciting Latent Knowledge (ELK) framework, we posit that VLMs encode safety-relevant information within their internal fusion-layer representations, revealing an implicit safety decision boundary in the latent space. This motivates exploiting boundary to steer model behavior. Accordingly, we propose JailBound, a novel latent space jailbreak framework comprising two stages: (1) Safety Boundary Probing, which addresses the guidance issue by approximating decision boundary within fusion layer's latent space, thereby identifying optimal perturbation directions towards the target region; and (2) Safety Boundary Crossing, which overcomes the limitations of decoupled approaches by jointly optimizing adversarial perturbations across both image and text inputs. This latter stage employs an innovative mechanism to steer the model's internal state towards policy-violating outputs while maintaining cross-modal semantic consistency. Extensive experiments on six diverse VLMs demonstrate JailBound's efficacy, achieves 94.32% white-box and 67.28% black-box attack success averagely, which are 6.17% and 21.13% higher than SOTA methods, respectively. Our findings expose a overlooked safety risk in VLMs and highlight the urgent need for more robust defenses. Warning: This paper contains potentially sensitive, harmful and offensive content.
- Abstract(参考訳): VLM(Vision-Language Models)は優れた性能を示すが、強力なビジョンエンコーダの統合により攻撃面が大幅に拡大し、ジェイルブレイク攻撃の影響を受けやすくなっている。
しかし、適切に定義された攻撃目標が欠如しているため、既存のジェイルブレイク手法は、局所的な最適性や正確な方向指示の欠如による勾配に基づく戦略に苦慮し、視覚的およびテキスト的モダリティを分離し、重要な相互モーダル相互作用を無視して有効性を制限している。
ELK(ELK)フレームワークに着想を得て,VLMは内部融合層表現内に安全関連情報をエンコードし,潜伏空間における暗黙の安全性決定境界を明らかにする。
これにより、バウンダリを利用してモデル動作をステアリングする。
そこで我々は,(1)融合層の潜伏空間における決定境界を近似することで誘導問題に対処し,目的領域への最適な摂動方向を同定する安全境界探索,(2)画像とテキストの入力の両面にわたる対向的摂動を協調的に最適化することで,分離されたアプローチの限界を克服する安全境界交差という2段階からなる新しい潜伏空間ジェイルバウンドを提案する。
この後期段階は、モダル間のセマンティック一貫性を維持しながら、ポリシー違反のアウトプットに対してモデルの内部状態を制御するための革新的なメカニズムを採用している。
6つの多様なVLMに関する大規模な実験は、JailBoundの有効性を示し、平均94.32%のホワイトボックスと67.28%のブラックボックス攻撃が成功し、それぞれSOTA法より6.17%、21.13%高い。
以上の結果から,VLMの安全リスクは見落とされ,より堅牢な防衛の必要性が浮き彫りになった。
警告: 本論文は、潜在的に敏感で有害で攻撃的な内容を含む。
関連論文リスト
- AdversariaL attacK sAfety aLIgnment(ALKALI): Safeguarding LLMs through GRACE: Geometric Representation-Aware Contrastive Enhancement- Introducing Adversarial Vulnerability Quality Index (AVQI) [7.628249019494587]
LLMに対する敵の脅威は、現在の防衛が適応できるよりも急速にエスカレートしている。
ALKALIは, 厳格にキュレートされた最初の逆数ベンチマークである。
本稿では、遅延空間正規化と協調するアライメントフレームワークGRACEを紹介する。
論文 参考訳(メタデータ) (2025-06-10T15:14:17Z) - Breaking the Ceiling: Exploring the Potential of Jailbreak Attacks through Expanding Strategy Space [32.144633825924345]
大きな言語モデル(LLM)は、安全プロトコルをバイパスするジェイルブレイク攻撃など、多くの安全リスクに悩まされている。
我々は,脱獄戦略を,ELM理論に基づく重要な構成要素に分解する新しい枠組みを開発する。
従来の手法が完全に失敗するClaude-3.5で90%以上の成功率を達成した。
論文 参考訳(メタデータ) (2025-05-27T14:48:44Z) - T2V-OptJail: Discrete Prompt Optimization for Text-to-Video Jailbreak Attacks [67.91652526657599]
我々は、T2Vジェイルブレイク攻撃を離散最適化問題として定式化し、T2V-OptJailと呼ばれる共同目的ベース最適化フレームワークを提案する。
いくつかのT2Vモデルに対して大規模な実験を行い、オープンソースモデルと実際の商用クローズドソースモデルの両方をカバーする。
提案手法は,攻撃成功率の観点から既存手法よりも11.4%,10.0%向上する。
論文 参考訳(メタデータ) (2025-05-10T16:04:52Z) - CeTAD: Towards Certified Toxicity-Aware Distance in Vision Language Models [16.5022773312661]
本稿では,ジェイルブレイク攻撃に対する大規模視覚言語モデルの保護を目的とした,普遍的な認証防衛フレームワークを提案する。
まず、悪意のある応答と意図した応答のセマンティックな差異を定量化する新しい距離尺度を提案する。
そして, ランダム化スムーシングを用いて, 形式的堅牢性を保証するための回帰認証手法を考案する。
論文 参考訳(メタデータ) (2025-03-08T17:33:55Z) - Improving LLM Safety Alignment with Dual-Objective Optimization [65.41451412400609]
大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。
本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
論文 参考訳(メタデータ) (2025-03-05T18:01:05Z) - Steering Dialogue Dynamics for Robustness against Multi-turn Jailbreaking Attacks [55.29301192316118]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して非常に脆弱である。
安全制御理論に基づく安全ステアリングフレームワークを提案する。
本手法は,安全予測器を学習することにより,対話の各方向における不変安全性を実現する。
論文 参考訳(メタデータ) (2025-02-28T21:10:03Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - Shaping the Safety Boundaries: Understanding and Defending Against Jailbreaks in Large Language Models [55.253208152184065]
大規模言語モデル(LLM)におけるジェイルブレークは、LLMを騙して有害なテキストを生成するというセキュリティ上の問題である。
我々は7つの異なるジェイルブレイク法を詳細に分析し、不一致が不十分な観察サンプルから生じることを確認した。
安全境界内でのアクティベーションを適応的に制限する「textbfActivation Boundary Defense (ABD)」という新しい防衛法を提案する。
論文 参考訳(メタデータ) (2024-12-22T14:18:39Z) - BlackDAN: A Black-Box Multi-Objective Approach for Effective and Contextual Jailbreaking of Large Language Models [47.576957746503666]
BlackDANは、多目的最適化を備えた革新的なブラックボックス攻撃フレームワークである。
ジェイルブレイクを効果的に促進する高品質なプロンプトを生成する。
コンテキスト関連性を維持し、検出可能性を最小限にする。
論文 参考訳(メタデータ) (2024-10-13T11:15:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。