論文の概要: VisualDAN: Exposing Vulnerabilities in VLMs with Visual-Driven DAN Commands
- arxiv url: http://arxiv.org/abs/2510.09699v1
- Date: Thu, 09 Oct 2025 16:18:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.569061
- Title: VisualDAN: Exposing Vulnerabilities in VLMs with Visual-Driven DAN Commands
- Title(参考訳): VisualDAN: ビジュアル駆動型DANコマンドによるVLMの脆弱性の公開
- Authors: Aofan Liu, Lulu Tang,
- Abstract要約: この研究は、DANスタイルのコマンドに埋め込まれた単一の逆画像であるVisualDANを導入している。
我々は、有害なコーパスに肯定的なプレフィックスを付与し、モデルに悪質なクエリに正の反応をさせる。
この結果から, 少量の有害物質であっても, モデルの防御が損なわれれば, 有害なアウトプットを著しく増幅できることが示唆された。
- 参考スコア(独自算出の注目度): 5.1114671756882535
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Vision-Language Models (VLMs) have garnered significant attention for their remarkable ability to interpret and generate multimodal content. However, securing these models against jailbreak attacks continues to be a substantial challenge. Unlike text-only models, VLMs integrate additional modalities, introducing novel vulnerabilities such as image hijacking, which can manipulate the model into producing inappropriate or harmful responses. Drawing inspiration from text-based jailbreaks like the "Do Anything Now" (DAN) command, this work introduces VisualDAN, a single adversarial image embedded with DAN-style commands. Specifically, we prepend harmful corpora with affirmative prefixes (e.g., "Sure, I can provide the guidance you need") to trick the model into responding positively to malicious queries. The adversarial image is then trained on these DAN-inspired harmful texts and transformed into the text domain to elicit malicious outputs. Extensive experiments on models such as MiniGPT-4, MiniGPT-v2, InstructBLIP, and LLaVA reveal that VisualDAN effectively bypasses the safeguards of aligned VLMs, forcing them to execute a broad range of harmful instructions that severely violate ethical standards. Our results further demonstrate that even a small amount of toxic content can significantly amplify harmful outputs once the model's defenses are compromised. These findings highlight the urgent need for robust defenses against image-based attacks and offer critical insights for future research into the alignment and security of VLMs.
- Abstract(参考訳): VLM(Vision-Language Models)は、マルチモーダルコンテンツの解釈と生成に際し、重要な注目を集めている。
しかし、これらのモデルをジェイルブレイク攻撃に対して確保することは、依然として重大な課題である。
テキストのみのモデルとは異なり、VLMは追加のモダリティを統合し、画像ハイジャックのような新たな脆弱性を導入する。
Do Anything Now"(DAN)コマンドのようなテキストベースのジェイルブレイクからインスピレーションを得て、この作業では、DANスタイルのコマンドに埋め込まれた単一の逆画像であるVisualDANを導入する。
具体的には、有害なコーパスに肯定的なプレフィックス(例えば、"Sure, I can provide the guidance you need")を加えて、モデルを騙して悪意のあるクエリに積極的に応答させます。
敵画像は、これらのDANにインスパイアされた有害なテキストに基づいて訓練され、悪意のある出力を引き出すためにテキストドメインに変換される。
MiniGPT-4、MiniGPT-v2、InstructBLIP、LLaVAといったモデルに対する大規模な実験では、VisualDANが協調VLMの安全を効果的に回避し、倫理基準を厳しく違反する広範囲の有害な命令を実行せざるを得ないことが明らかになった。
さらに, 有害物質が少量であっても, モデルの防御が損なわれれば, 有害なアウトプットを著しく増幅できることを示した。
これらの知見は、画像ベースの攻撃に対する堅牢な防御の必要性を強調し、VLMのアライメントとセキュリティに関する今後の研究に重要な洞察を提供する。
関連論文リスト
- Robustifying Vision-Language Models via Dynamic Token Reweighting [28.675118345987887]
大きな視覚言語モデル(VLM)は、ジェイルブレイク攻撃に対して非常に脆弱である。
マルチモーダル・ジェイルブレイク攻撃を緩和する新しい推論時防御法を提案する。
視覚的モダリティによって誘導される安全関連分布シフトの新しい定式化を導入する。
論文 参考訳(メタデータ) (2025-05-22T03:00:39Z) - Transferable Adversarial Attacks on Black-Box Vision-Language Models [63.22532779621001]
敵対的攻撃は、テキストのみのコンテキストとビジョンのみのコンテキストにおいて、オープンソースからプロプライエタリなブラックボックスモデルに移行することができる。
攻撃者は、特定の攻撃者による視覚情報の解釈を誘導するために、摂動を作れます。
普遍的な摂動 -- 広い範囲のイメージに適用可能な修正 -- は、これらの誤解釈を一貫して引き起こすことを発見した。
論文 参考訳(メタデータ) (2025-05-02T06:51:11Z) - Cross-modality Information Check for Detecting Jailbreaking in Multimodal Large Language Models [17.663550432103534]
マルチモーダル大言語モデル(MLLM)は、多モーダル情報を包括的に理解するためにLLMの能力を拡張する。
これらのモデルは、悪意のあるユーザーがターゲットモデルの安全アライメントを壊し、誤解を招く、有害な回答を発生させることができるジェイルブレイク攻撃の影響を受けやすい。
本稿では,悪質な摂動画像入力を識別するプラグイン・アンド・プレイのジェイルブレイク検出装置であるCIDERを提案する。
論文 参考訳(メタデータ) (2024-07-31T15:02:46Z) - Jailbreak Vision Language Models via Bi-Modal Adversarial Prompt [60.54666043358946]
本稿では,テキストと視覚のプロンプトを協調的に最適化することにより,ジェイルブレイクを実行するバイモーダル・アドバイサル・プロンプト・アタック(BAP)を提案する。
特に,大規模言語モデルを用いてジェイルブレイクの失敗を分析し,テキストのプロンプトを洗練させるために連鎖推論を採用する。
論文 参考訳(メタデータ) (2024-06-06T13:00:42Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z) - Adversarial Prompt Tuning for Vision-Language Models [86.5543597406173]
AdvPT(Adversarial Prompt Tuning)は、視覚言語モデル(VLM)における画像エンコーダの対向ロバスト性を高める技術である。
我々は,AdvPTが白箱攻撃や黒箱攻撃に対する抵抗性を向上し,既存の画像処理による防御技術と組み合わせることで相乗効果を示すことを示した。
論文 参考訳(メタデータ) (2023-11-19T07:47:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。