論文の概要: Innocence in the Crossfire: Roles of Skip Connections in Jailbreaking Visual Language Models
- arxiv url: http://arxiv.org/abs/2507.13761v1
- Date: Fri, 18 Jul 2025 09:13:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-21 20:43:26.238042
- Title: Innocence in the Crossfire: Roles of Skip Connections in Jailbreaking Visual Language Models
- Title(参考訳): クロスファイアにおける無害:視覚言語モデルのジェイルブレークにおけるスキップ接続の役割
- Authors: Palash Nandi, Maithili Joshi, Tanmoy Chakraborty,
- Abstract要約: 視覚言語モデルにおいて,プロンプトデザインの個々のコンポーネントが不適切なコンテンツの生成にどのように影響するかを検討する。
a) 詳細な視覚情報を含むこと, (b) 敵対的事例が存在すること, (c) 正の枠付き開始句の使用こと, の3つの主要な要因がジェイルブレイクの成功に与える影響を分析した。
- 参考スコア(独自算出の注目度): 16.177991267568125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models are highly sensitive to prompt formulations - small changes in input can drastically alter their output. This raises a critical question: To what extent can prompt sensitivity be exploited to generate inapt content? In this paper, we investigate how discrete components of prompt design influence the generation of inappropriate content in Visual Language Models (VLMs). Specifically, we analyze the impact of three key factors on successful jailbreaks: (a) the inclusion of detailed visual information, (b) the presence of adversarial examples, and (c) the use of positively framed beginning phrases. Our findings reveal that while a VLM can reliably distinguish between benign and harmful inputs in unimodal settings (text-only or image-only), this ability significantly degrades in multimodal contexts. Each of the three factors is independently capable of triggering a jailbreak, and we show that even a small number of in-context examples (as few as three) can push the model toward generating inappropriate outputs. Furthermore, we propose a framework that utilizes a skip-connection between two internal layers of the VLM, which substantially increases jailbreak success rates, even when using benign images. Finally, we demonstrate that memes, often perceived as humorous or harmless, can be as effective as toxic visuals in eliciting harmful content, underscoring the subtle and complex vulnerabilities of VLMs.
- Abstract(参考訳): 言語モデルは、迅速な定式化に非常に敏感である。
これは批判的な疑問を提起する。 どの程度の間、不適切なコンテンツを生成するために、敏感性をどの程度活用できるのか?
本稿では,視覚言語モデル(VLM)において,プロンプトデザインの個別成分が不適切なコンテンツの生成にどのように影響するかを検討する。
具体的には、3つの重要な要因がジェイルブレイクの成功に与える影響を分析します。
a) 詳細な視覚情報を含むこと
b) 敵の例の存在,及び
(c) 肯定的な結語句の使用。
以上の結果から,VLMは,一助的設定(テキストのみまたは画像のみ)における良性入力と有害な入力とを確実に区別できるが,マルチモーダル環境では著しく劣化することが明らかとなった。
これら3つの要因はそれぞれ独立してジェイルブレイクをトリガーできるので、少数のインコンテキスト例(わずか3つ)であっても、モデルが不適切な出力を生成することができることを示す。
さらに,VLMの2つの内部層間のスキップ接続を利用して,良質な画像を用いても脱獄の成功率を大幅に向上させるフレームワークを提案する。
最後に、しばしばユーモラスまたは無害と認識されるミームは、有害なコンテンツを誘発する有害な視覚と同じくらい効果的であり、VLMの微妙で複雑な脆弱性を強調できることを示した。
関連論文リスト
- VEIL: Jailbreaking Text-to-Video Models via Visual Exploitation from Implicit Language [25.38940067963429]
テキスト・ツー・ビデオ(T2V)モデルに対する以前の攻撃は、通常、明らかに安全でないプロンプトに敵の摂動を追加する。
我々は、リッチで暗黙的な手がかりを含む良心的なプロンプトがT2Vモデルを誘導し、セマンティックなアンセーフなビデオを生成することを示した。
本稿では,モジュール型プロンプト設計により,T2Vモデルの相互関連パターンを活用するジェイルブレイクフレームワークVEILを提案する。
論文 参考訳(メタデータ) (2025-11-17T08:31:43Z) - Say It Differently: Linguistic Styles as Jailbreak Vectors [0.763334557068953]
我々は、恐怖や好奇心などの言語スタイルが有害な意図を再構築し、整列モデルから安全でない反応を誘発する方法について研究する。
3つの標準データセットからのプロンプトを11の異なる言語スタイルに変換することで、スタイル拡張されたjailbreakベンチマークを構築する。
恐怖、好奇心、慈悲心といったスタイルは最も効果的で、文脈化された書き直しはテンプレート化されたバリエーションよりも優れている。
論文 参考訳(メタデータ) (2025-11-13T17:24:38Z) - Plug-and-Play Clarifier: A Zero-Shot Multimodal Framework for Egocentric Intent Disambiguation [60.63465682731118]
エゴセントリックなAIエージェントのパフォーマンスは、基本的にマルチモーダルな意図のあいまいさによって制限される。
ゼロショットでモジュラーなフレームワークであるPlug-and-Play Clarifierを導入し、問題を個別に解決可能なサブタスクに分解する。
我々のフレームワークは,小言語モデルの意図的明確化性能を約30%向上させ,より大きな言語モデルとの競争力を高める。
論文 参考訳(メタデータ) (2025-11-12T04:28:14Z) - VisualDAN: Exposing Vulnerabilities in VLMs with Visual-Driven DAN Commands [5.1114671756882535]
この研究は、DANスタイルのコマンドに埋め込まれた単一の逆画像であるVisualDANを導入している。
我々は、有害なコーパスに肯定的なプレフィックスを付与し、モデルに悪質なクエリに正の反応をさせる。
この結果から, 少量の有害物質であっても, モデルの防御が損なわれれば, 有害なアウトプットを著しく増幅できることが示唆された。
論文 参考訳(メタデータ) (2025-10-09T16:18:31Z) - Imperceptible Jailbreaking against Large Language Models [107.76039200173528]
変分セレクタと呼ばれるUnicode文字のクラスを利用する非受容ジェイルブレイクを導入する。
目に見えない変分セレクタを悪意のある質問に追加することで、ジェイルブレイクプロンプトは画面上の元の悪意のある質問と視覚的に同じように見える。
本研究では,このような逆接尾辞を生成し,有害な応答を誘導する探索パイプラインを提案する。
論文 参考訳(メタデータ) (2025-10-06T17:03:50Z) - Implicit Jailbreak Attacks via Cross-Modal Information Concealment on Vision-Language Models [20.99874786089634]
以前のジェイルブレイク攻撃は、しばしば悪意のある命令をテキストから視覚など、整合性の低いモダリティに注入する。
IJAと呼ばれる新しい暗黙のジェイルブレイクフレームワークを提案し、少なくとも重要なビットステガノグラフィーによって悪意ある命令を画像に密かに埋め込む。
GPT-4o や Gemini-1.5 Pro などの商用モデルでは,攻撃成功率は90% 以上で,平均 3 クエリのみを用いて達成している。
論文 参考訳(メタデータ) (2025-05-22T09:34:47Z) - T2V-OptJail: Discrete Prompt Optimization for Text-to-Video Jailbreak Attacks [67.91652526657599]
我々は、T2Vジェイルブレイク攻撃を離散最適化問題として定式化し、T2V-OptJailと呼ばれる共同目的ベース最適化フレームワークを提案する。
いくつかのT2Vモデルに対して大規模な実験を行い、オープンソースモデルと実際の商用クローズドソースモデルの両方をカバーする。
提案手法は,攻撃成功率の観点から既存手法よりも11.4%,10.0%向上する。
論文 参考訳(メタデータ) (2025-05-10T16:04:52Z) - from Benign import Toxic: Jailbreaking the Language Model via Adversarial Metaphors [11.783273882437824]
本稿では,AdVersArial meTAphoR(AVATAR)を利用して大規模言語モデルを誘導し,脱獄の悪質な隠喩を校正する新たな攻撃フレームワークを提案する。
AVATARは脱獄性LDMを効果的かつ効果的に導入できることを示す実験結果が得られた。
論文 参考訳(メタデータ) (2025-02-25T08:41:25Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - IDEATOR: Jailbreaking and Benchmarking Large Vision-Language Models Using Themselves [64.46372846359694]
IDEATORは、ブラックボックスジェイルブレイク攻撃のための悪意のある画像テキストペアを自律的に生成する新しいジェイルブレイク手法である。
最近リリースされたVLM11のベンチマーク結果から,安全性の整合性に大きなギャップがあることが判明した。
例えば、GPT-4oで46.31%、Claude-3.5-Sonnetで19.65%のASRを達成した。
論文 参考訳(メタデータ) (2024-10-29T07:15:56Z) - Jailbreak Vision Language Models via Bi-Modal Adversarial Prompt [60.54666043358946]
本稿では,テキストと視覚のプロンプトを協調的に最適化することにより,ジェイルブレイクを実行するバイモーダル・アドバイサル・プロンプト・アタック(BAP)を提案する。
特に,大規模言語モデルを用いてジェイルブレイクの失敗を分析し,テキストのプロンプトを洗練させるために連鎖推論を採用する。
論文 参考訳(メタデータ) (2024-06-06T13:00:42Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z) - Visual-RolePlay: Universal Jailbreak Attack on MultiModal Large Language Models via Role-playing Image Character [5.927633974815329]
本稿では,MLLMジェイルブレイク攻撃に対する視覚ロールプレイ(VRP)と呼ばれる新しい効果的手法を提案する。
VRPは、リスクの高い文字の詳細な記述を生成し、その記述に基づいて対応する画像を生成する。
良質なロールプレイインストラクションテキストと組み合わせると、これらのハイリスクなキャラクターイメージはMLLMを効果的に誤解して悪意ある応答を発生させる。
論文 参考訳(メタデータ) (2024-05-25T17:17:18Z) - Jailbreak and Guard Aligned Language Models with Only Few In-Context Demonstrations [38.437893814759086]
大きな言語モデル(LLM)は様々なタスクで顕著に成功しているが、その安全性と有害なコンテンツを生成するリスクは依然として懸念されている。
本研究では, LLM を倒すために有害な実証を行う In-Context Attack (ICA) と, 有害な応答の再現を拒否する事例を通じてモデルレジリエンスを高める In-Context Defense (ICD) を提案する。
論文 参考訳(メタデータ) (2023-10-10T07:50:29Z) - AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models [54.95912006700379]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。
AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文 参考訳(メタデータ) (2023-10-03T19:44:37Z) - Universal and Transferable Adversarial Attacks on Aligned Language
Models [118.41733208825278]
本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。
驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
論文 参考訳(メタデータ) (2023-07-27T17:49:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。