論文の概要: Innocence in the Crossfire: Roles of Skip Connections in Jailbreaking Visual Language Models
- arxiv url: http://arxiv.org/abs/2507.13761v1
- Date: Fri, 18 Jul 2025 09:13:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-21 20:43:26.238042
- Title: Innocence in the Crossfire: Roles of Skip Connections in Jailbreaking Visual Language Models
- Title(参考訳): クロスファイアにおける無害:視覚言語モデルのジェイルブレークにおけるスキップ接続の役割
- Authors: Palash Nandi, Maithili Joshi, Tanmoy Chakraborty,
- Abstract要約: 視覚言語モデルにおいて,プロンプトデザインの個々のコンポーネントが不適切なコンテンツの生成にどのように影響するかを検討する。
a) 詳細な視覚情報を含むこと, (b) 敵対的事例が存在すること, (c) 正の枠付き開始句の使用こと, の3つの主要な要因がジェイルブレイクの成功に与える影響を分析した。
- 参考スコア(独自算出の注目度): 16.177991267568125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models are highly sensitive to prompt formulations - small changes in input can drastically alter their output. This raises a critical question: To what extent can prompt sensitivity be exploited to generate inapt content? In this paper, we investigate how discrete components of prompt design influence the generation of inappropriate content in Visual Language Models (VLMs). Specifically, we analyze the impact of three key factors on successful jailbreaks: (a) the inclusion of detailed visual information, (b) the presence of adversarial examples, and (c) the use of positively framed beginning phrases. Our findings reveal that while a VLM can reliably distinguish between benign and harmful inputs in unimodal settings (text-only or image-only), this ability significantly degrades in multimodal contexts. Each of the three factors is independently capable of triggering a jailbreak, and we show that even a small number of in-context examples (as few as three) can push the model toward generating inappropriate outputs. Furthermore, we propose a framework that utilizes a skip-connection between two internal layers of the VLM, which substantially increases jailbreak success rates, even when using benign images. Finally, we demonstrate that memes, often perceived as humorous or harmless, can be as effective as toxic visuals in eliciting harmful content, underscoring the subtle and complex vulnerabilities of VLMs.
- Abstract(参考訳): 言語モデルは、迅速な定式化に非常に敏感である。
これは批判的な疑問を提起する。 どの程度の間、不適切なコンテンツを生成するために、敏感性をどの程度活用できるのか?
本稿では,視覚言語モデル(VLM)において,プロンプトデザインの個別成分が不適切なコンテンツの生成にどのように影響するかを検討する。
具体的には、3つの重要な要因がジェイルブレイクの成功に与える影響を分析します。
a) 詳細な視覚情報を含むこと
b) 敵の例の存在,及び
(c) 肯定的な結語句の使用。
以上の結果から,VLMは,一助的設定(テキストのみまたは画像のみ)における良性入力と有害な入力とを確実に区別できるが,マルチモーダル環境では著しく劣化することが明らかとなった。
これら3つの要因はそれぞれ独立してジェイルブレイクをトリガーできるので、少数のインコンテキスト例(わずか3つ)であっても、モデルが不適切な出力を生成することができることを示す。
さらに,VLMの2つの内部層間のスキップ接続を利用して,良質な画像を用いても脱獄の成功率を大幅に向上させるフレームワークを提案する。
最後に、しばしばユーモラスまたは無害と認識されるミームは、有害なコンテンツを誘発する有害な視覚と同じくらい効果的であり、VLMの微妙で複雑な脆弱性を強調できることを示した。
関連論文リスト
- Implicit Jailbreak Attacks via Cross-Modal Information Concealment on Vision-Language Models [20.99874786089634]
以前のジェイルブレイク攻撃は、しばしば悪意のある命令をテキストから視覚など、整合性の低いモダリティに注入する。
IJAと呼ばれる新しい暗黙のジェイルブレイクフレームワークを提案し、少なくとも重要なビットステガノグラフィーによって悪意ある命令を画像に密かに埋め込む。
GPT-4o や Gemini-1.5 Pro などの商用モデルでは,攻撃成功率は90% 以上で,平均 3 クエリのみを用いて達成している。
論文 参考訳(メタデータ) (2025-05-22T09:34:47Z) - T2V-OptJail: Discrete Prompt Optimization for Text-to-Video Jailbreak Attacks [67.91652526657599]
我々は、T2Vジェイルブレイク攻撃を離散最適化問題として定式化し、T2V-OptJailと呼ばれる共同目的ベース最適化フレームワークを提案する。
いくつかのT2Vモデルに対して大規模な実験を行い、オープンソースモデルと実際の商用クローズドソースモデルの両方をカバーする。
提案手法は,攻撃成功率の観点から既存手法よりも11.4%,10.0%向上する。
論文 参考訳(メタデータ) (2025-05-10T16:04:52Z) - from Benign import Toxic: Jailbreaking the Language Model via Adversarial Metaphors [11.783273882437824]
本稿では,AdVersArial meTAphoR(AVATAR)を利用して大規模言語モデルを誘導し,脱獄の悪質な隠喩を校正する新たな攻撃フレームワークを提案する。
AVATARは脱獄性LDMを効果的かつ効果的に導入できることを示す実験結果が得られた。
論文 参考訳(メタデータ) (2025-02-25T08:41:25Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - IDEATOR: Jailbreaking and Benchmarking Large Vision-Language Models Using Themselves [64.46372846359694]
IDEATORは、ブラックボックスジェイルブレイク攻撃のための悪意のある画像テキストペアを自律的に生成する新しいジェイルブレイク手法である。
最近リリースされたVLM11のベンチマーク結果から,安全性の整合性に大きなギャップがあることが判明した。
例えば、GPT-4oで46.31%、Claude-3.5-Sonnetで19.65%のASRを達成した。
論文 参考訳(メタデータ) (2024-10-29T07:15:56Z) - Jailbreak Vision Language Models via Bi-Modal Adversarial Prompt [60.54666043358946]
本稿では,テキストと視覚のプロンプトを協調的に最適化することにより,ジェイルブレイクを実行するバイモーダル・アドバイサル・プロンプト・アタック(BAP)を提案する。
特に,大規模言語モデルを用いてジェイルブレイクの失敗を分析し,テキストのプロンプトを洗練させるために連鎖推論を採用する。
論文 参考訳(メタデータ) (2024-06-06T13:00:42Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z) - Visual-RolePlay: Universal Jailbreak Attack on MultiModal Large Language Models via Role-playing Image Character [5.927633974815329]
本稿では,MLLMジェイルブレイク攻撃に対する視覚ロールプレイ(VRP)と呼ばれる新しい効果的手法を提案する。
VRPは、リスクの高い文字の詳細な記述を生成し、その記述に基づいて対応する画像を生成する。
良質なロールプレイインストラクションテキストと組み合わせると、これらのハイリスクなキャラクターイメージはMLLMを効果的に誤解して悪意ある応答を発生させる。
論文 参考訳(メタデータ) (2024-05-25T17:17:18Z) - Jailbreak and Guard Aligned Language Models with Only Few In-Context Demonstrations [38.437893814759086]
大きな言語モデル(LLM)は様々なタスクで顕著に成功しているが、その安全性と有害なコンテンツを生成するリスクは依然として懸念されている。
本研究では, LLM を倒すために有害な実証を行う In-Context Attack (ICA) と, 有害な応答の再現を拒否する事例を通じてモデルレジリエンスを高める In-Context Defense (ICD) を提案する。
論文 参考訳(メタデータ) (2023-10-10T07:50:29Z) - AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models [54.95912006700379]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。
AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文 参考訳(メタデータ) (2023-10-03T19:44:37Z) - Universal and Transferable Adversarial Attacks on Aligned Language
Models [118.41733208825278]
本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。
驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
論文 参考訳(メタデータ) (2023-07-27T17:49:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。