論文の概要: Toward Universal and Transferable Jailbreak Attacks on Vision-Language Models
- arxiv url: http://arxiv.org/abs/2602.01025v1
- Date: Sun, 01 Feb 2026 05:18:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.53774
- Title: Toward Universal and Transferable Jailbreak Attacks on Vision-Language Models
- Title(参考訳): ビジョンランゲージモデルによるユニバーサル・トランスファー可能なジェイルブレイク攻撃に向けて
- Authors: Kaiyuan Cui, Yige Li, Yutao Wu, Xingjun Ma, Sarah Erfani, Christopher Leckie, Hanxun Huang,
- Abstract要約: 視覚言語モデル(VLM)は、視覚エンコーダで大きな言語モデル(LLM)を拡張し、画像とテキストの両方で条件付きテキスト生成を可能にする。
マルチモーダル統合は、有害な応答を引き起こすために作られたイメージベースのジェイルブレイクにモデルを公開することによって、攻撃面を拡張する。
既存の勾配に基づくジェイルブレイク法は、逆転パターンが単一のホワイトボックスサロゲートに過度に適合し、ブラックボックスモデルに一般化できないため、転送が不十分である。
視覚空間における変換と正規化を通じて、敵対的パターンを制約するフレームワークであるユニバーサルで転送可能なジェイルブレイク(UltraBreak)を提案する。
- 参考スコア(独自算出の注目度): 32.08069972778743
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) extend large language models (LLMs) with vision encoders, enabling text generation conditioned on both images and text. However, this multimodal integration expands the attack surface by exposing the model to image-based jailbreaks crafted to induce harmful responses. Existing gradient-based jailbreak methods transfer poorly, as adversarial patterns overfit to a single white-box surrogate and fail to generalise to black-box models. In this work, we propose Universal and transferable jailbreak (UltraBreak), a framework that constrains adversarial patterns through transformations and regularisation in the vision space, while relaxing textual targets through semantic-based objectives. By defining its loss in the textual embedding space of the target LLM, UltraBreak discovers universal adversarial patterns that generalise across diverse jailbreak objectives. This combination of vision-level regularisation and semantically guided textual supervision mitigates surrogate overfitting and enables strong transferability across both models and attack targets. Extensive experiments show that UltraBreak consistently outperforms prior jailbreak methods. Further analysis reveals why earlier approaches fail to transfer, highlighting that smoothing the loss landscape via semantic objectives is crucial for enabling universal and transferable jailbreaks. The code is publicly available in our \href{https://github.com/kaiyuanCui/UltraBreak}{GitHub repository}.
- Abstract(参考訳): 視覚言語モデル(VLM)は、視覚エンコーダで大きな言語モデル(LLM)を拡張し、画像とテキストの両方で条件付きテキスト生成を可能にする。
しかし、このマルチモーダル統合は、有害な応答を誘発する画像ベースのジェイルブレイクにモデルを公開することで、攻撃面を拡大する。
既存の勾配に基づくジェイルブレイク法は、逆転パターンが単一のホワイトボックスサロゲートに過度に適合し、ブラックボックスモデルに一般化できないため、転送が不十分である。
本研究は,視覚空間の変換と正規化を通じて敵対的パターンを制約し,意味に基づく目的を通じてテキストターゲットを緩和するフレームワークであるユニバーサル・アンド・トランスファーブル・ジェイルブレイク(UltraBreak)を提案する。
ターゲットLDMのテキスト埋め込み空間における損失を定義することで、UltraBreakは様々なジェイルブレイクの目的を一般化する普遍的な敵パターンを発見する。
視覚レベルの正規化とセマンティックガイド付きテキスト管理の組み合わせは、サロゲート過適合を緩和し、モデルとアタックターゲットの両方で強力な転送可能性を実現する。
大規模な実験では、UltraBreakは以前のジェイルブレイク法よりも一貫して優れていた。
さらなる分析は、先のアプローチが転送に失敗した理由を明らかにし、意味的な目的を通じて損失の景観を滑らかにすることは、普遍的で転送可能なジェイルブレイクを可能にするために重要であることを強調している。
コードは当社の \href{https://github.com/kaiyuanCui/UltraBreak}{GitHub リポジトリで公開されています。
関連論文リスト
- LatentBreak: Jailbreaking Large Language Models through Latent Space Feedback [31.15245650762331]
そこで我々は,ホワイトボックスのジェイルブレイク攻撃であるLatentBreakを提案する。
LatentBreakは入力プロンプト内の単語を意味的に等価なものに置き換え、プロンプトの初期意図を保存する。
我々の評価では、LatentBreakは短絡性のプロンプトを誘導し、競合するジェイルブレイクアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2025-10-07T09:40:20Z) - IDEATOR: Jailbreaking and Benchmarking Large Vision-Language Models Using Themselves [70.43466586161345]
IDEATORは、ブラックボックスジェイルブレイク攻撃のための悪意のある画像テキストペアを自律的に生成する新しいジェイルブレイク手法である。
最近リリースされたVLM11のベンチマーク結果から,安全性の整合性に大きなギャップがあることが判明した。
例えば、我々はASRをGPT-4oで46.31%、Claude-3.5-Sonnetで19.65%と設定した。
論文 参考訳(メタデータ) (2024-10-29T07:15:56Z) - Failures to Find Transferable Image Jailbreaks Between Vision-Language Models [20.385314634225978]
視覚およびテキスト入力に条件付けされたテキスト出力を生成する視覚言語モデル(VLM)の一般的なクラスに焦点を当てる。
転送可能な勾配に基づく画像ジェイルブレイクは、取得が極めて困難である。
論文 参考訳(メタデータ) (2024-07-21T16:27:24Z) - Jailbreak Vision Language Models via Bi-Modal Adversarial Prompt [60.54666043358946]
本稿では,テキストと視覚のプロンプトを協調的に最適化することにより,ジェイルブレイクを実行するバイモーダル・アドバイサル・プロンプト・アタック(BAP)を提案する。
特に,大規模言語モデルを用いてジェイルブレイクの失敗を分析し,テキストのプロンプトを洗練させるために連鎖推論を採用する。
論文 参考訳(メタデータ) (2024-06-06T13:00:42Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。