論文の概要: JaiLIP: Jailbreaking Vision-Language Models via Loss Guided Image Perturbation
- arxiv url: http://arxiv.org/abs/2509.21401v1
- Date: Wed, 24 Sep 2025 14:17:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:53.909134
- Title: JaiLIP: Jailbreaking Vision-Language Models via Loss Guided Image Perturbation
- Title(参考訳): JaiLIP:ロスガイド画像摂動による視覚ランゲージモデルの脱獄
- Authors: Md Jueal Mia, M. Hadi Amini,
- Abstract要約: VLM(Vision-Language Models)は、マルチモーダル推論タスクを生成する際、顕著な能力を持つ。
近年の研究では、画像に基づく摂動は有害な出力を発生させるのに特に有効であることが示されている。
本研究では,画像空間におけるジェイルブレーキング攻撃であるロス誘導画像摂動(JaiLIP)を用いたジェイルブレーキングを提案する。
- 参考スコア(独自算出の注目度): 0.15039745292757667
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) have remarkable abilities in generating multimodal reasoning tasks. However, potential misuse or safety alignment concerns of VLMs have increased significantly due to different categories of attack vectors. Among various attack vectors, recent studies have demonstrated that image-based perturbations are particularly effective in generating harmful outputs. In the literature, many existing techniques have been proposed to jailbreak VLMs, leading to unstable performance and visible perturbations. In this study, we propose Jailbreaking with Loss-guided Image Perturbation (JaiLIP), a jailbreaking attack in the image space that minimizes a joint objective combining the mean squared error (MSE) loss between clean and adversarial image with the models harmful-output loss. We evaluate our proposed method on VLMs using standard toxicity metrics from Perspective API and Detoxify. Experimental results demonstrate that our method generates highly effective and imperceptible adversarial images, outperforming existing methods in producing toxicity. Moreover, we have evaluated our method in the transportation domain to demonstrate the attacks practicality beyond toxic text generation in specific domain. Our findings emphasize the practical challenges of image-based jailbreak attacks and the need for efficient defense mechanisms for VLMs.
- Abstract(参考訳): VLM(Vision-Language Models)は、マルチモーダル推論タスクを生成する際、顕著な能力を持つ。
しかしながら、VLMの潜在的な誤用や安全性に関する懸念は、攻撃ベクトルのカテゴリによって大きく増大している。
近年の研究では、画像に基づく摂動は有害な出力を発生させるのに特に有効であることが示されている。
文献では、ジェイルブレイクVLMには多くの既存の技術が提案されており、不安定な性能と目に見える摂動につながっている。
本研究では、画像空間におけるジェイルブレーキング攻撃である、損失誘導画像摂動(JaiLIP)を用いたジェイルブレーキングを提案し、クリーン画像と逆画像間の平均2乗誤差(MSE)損失と有害出力損失モデルとの結合目標を最小化する。
提案手法は, 標準毒性測定値を用いて, Perspective API と Detoxify を用いて評価する。
実験により,本手法は高能率かつ知覚不能な逆画像を生成し,既存の毒性生成法よりも優れていたことが確認された。
さらに, 特定領域における有害テキスト生成以外の攻撃実践性を実証するため, 輸送領域における本手法の評価を行った。
本研究は,画像ベースのジェイルブレイク攻撃の実践的課題と,VLMの効率的な防御機構の必要性を強調した。
関連論文リスト
- Exploring Visual Vulnerabilities via Multi-Loss Adversarial Search for Jailbreaking Vision-Language Models [92.79804303337522]
VLM(Vision-Language Models)は、安全アライメントの問題に対して脆弱である。
本稿では、シナリオ認識画像生成を利用したセマンティックアライメントのための新しいジェイルブレイクフレームワークであるMLAIを紹介する。
大規模な実験はMLAIの重大な影響を示し、MiniGPT-4で77.75%、LLaVA-2で82.80%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2024-11-27T02:40:29Z) - $\textit{MMJ-Bench}$: A Comprehensive Study on Jailbreak Attacks and Defenses for Multimodal Large Language Models [11.02754617539271]
我々は,MLLMのジェイルブレイク攻撃と防御技術を評価するための統合パイプラインであるtextitMMJ-Benchを紹介する。
我々は,SoTA MLLMに対する様々な攻撃方法の有効性を評価し,防御機構が防御効果とモデルの有用性に与える影響を評価する。
論文 参考訳(メタデータ) (2024-08-16T00:18:23Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z) - Images are Achilles' Heel of Alignment: Exploiting Visual Vulnerabilities for Jailbreaking Multimodal Large Language Models [107.88745040504887]
マルチモーダル大言語モデル(MLLM)の無害アライメント問題について検討する。
そこで本研究では,テキスト入力における悪意のある意図の有害性を隠蔽し,増幅する,HADESという新しいジェイルブレイク手法を提案する。
実験の結果、HADESは既存のMLLMを効果的にジェイルブレイクし、LLaVA-1.5では90.26%、Gemini Pro Visionでは71.60%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2024-03-14T18:24:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。