論文の概要: White-box Multimodal Jailbreaks Against Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2405.17894v1
- Date: Tue, 28 May 2024 07:13:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 19:57:23.513206
- Title: White-box Multimodal Jailbreaks Against Large Vision-Language Models
- Title(参考訳): 大規模ビジョンランゲージモデルに対するホワイトボックスマルチモーダルジェイルブレイク
- Authors: Ruofan Wang, Xingjun Ma, Hanxu Zhou, Chuanjun Ji, Guangnan Ye, Yu-Gang Jiang,
- Abstract要約: 本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
- 参考スコア(独自算出の注目度): 61.97578116584653
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in Large Vision-Language Models (VLMs) have underscored their superiority in various multimodal tasks. However, the adversarial robustness of VLMs has not been fully explored. Existing methods mainly assess robustness through unimodal adversarial attacks that perturb images, while assuming inherent resilience against text-based attacks. Different from existing attacks, in this work we propose a more comprehensive strategy that jointly attacks both text and image modalities to exploit a broader spectrum of vulnerability within VLMs. Specifically, we propose a dual optimization objective aimed at guiding the model to generate affirmative responses with high toxicity. Our attack method begins by optimizing an adversarial image prefix from random noise to generate diverse harmful responses in the absence of text input, thus imbuing the image with toxic semantics. Subsequently, an adversarial text suffix is integrated and co-optimized with the adversarial image prefix to maximize the probability of eliciting affirmative responses to various harmful instructions. The discovered adversarial image prefix and text suffix are collectively denoted as a Universal Master Key (UMK). When integrated into various malicious queries, UMK can circumvent the alignment defenses of VLMs and lead to the generation of objectionable content, known as jailbreaks. The experimental results demonstrate that our universal attack strategy can effectively jailbreak MiniGPT-4 with a 96% success rate, highlighting the vulnerability of VLMs and the urgent need for new alignment strategies.
- Abstract(参考訳): 近年のVLM(Large Vision-Language Models)の進歩は、様々なマルチモーダルタスクにおいて、その優位性を裏付けている。
しかしながら、VLMの対角的堅牢性は十分には研究されていない。
既存の手法は主に、テキストベースの攻撃に対して固有のレジリエンスを仮定しながら、画像を摂動する一元対向攻撃によるロバスト性を評価する。
既存の攻撃とは違って、本研究では、テキストと画像のモダリティの両方を共同攻撃して、VLM内のより広範な脆弱性を悪用する、より包括的な戦略を提案する。
具体的には,モデルに高毒性の肯定応答を生成するための2つの最適化手法を提案する。
本手法は, テキスト入力がない場合に, 有害な応答を多様に生成するために, 逆画像プレフィックスをランダムノイズから最適化することから始める。
その後、逆境テキスト接尾辞と逆境画像接頭辞とを一体化して、様々な有害な指示に対する肯定応答を誘発する確率を最大化する。
検出された逆画像プレフィックスとテキスト接尾辞は総称してユニバーサルマスターキー(UMK)と表記される。
様々な悪意のあるクエリに統合されると、UMKはVLMのアライメント防御を回避し、jailbreaksとして知られる好ましくないコンテンツを生成する。
実験の結果,我々のユニバーサルアタック戦略は,96%の成功率でMiniGPT-4を効果的に脱獄し,VLMの脆弱性と新たなアライメント戦略の必要性を強調した。
関連論文リスト
- Adversarial Tuning: Defending Against Jailbreak Attacks for LLMs [13.317364896194903]
本稿では,大規模言語モデルの汎用防衛能力を高めるための2段階の逆調整フレームワークを提案する。
第1段階では,トークンレベルの逆数生成を効率的に行うために,階層型メタユニバーサル逆数学習を導入する。
第2段階では,自動対向プロンプト学習により,意味レベルの対向プロンプトを反復的に洗練する手法を提案する。
論文 参考訳(メタデータ) (2024-06-07T15:37:15Z) - Jailbreak Vision Language Models via Bi-Modal Adversarial Prompt [60.54666043358946]
本稿では,テキストと視覚のプロンプトを協調的に最適化することにより,ジェイルブレイクを実行するバイモーダル・アドバイサル・プロンプト・アタック(BAP)を提案する。
特に,大規模言語モデルを用いてジェイルブレイクの失敗を分析し,テキストのプロンプトを洗練させるために連鎖推論を採用する。
論文 参考訳(メタデータ) (2024-06-06T13:00:42Z) - Visual-RolePlay: Universal Jailbreak Attack on MultiModal Large Language Models via Role-playing Image Character [5.927633974815329]
本稿では,MLLMジェイルブレイク攻撃に対する視覚ロールプレイ(VRP)と呼ばれる新しい効果的手法を提案する。
VRPは、リスクの高い文字の詳細な記述を生成し、その記述に基づいて対応する画像を生成する。
良質なロールプレイインストラクションテキストと組み合わせると、これらのハイリスクなキャラクターイメージはMLLMを効果的に誤解して悪意ある応答を発生させる。
論文 参考訳(メタデータ) (2024-05-25T17:17:18Z) - Safeguarding Vision-Language Models Against Patched Visual Prompt Injectors [31.383591942592467]
視覚言語モデル(VLM)は、視覚とテキストのデータを組み合わせて理解と相互作用を強化する革新的な方法を提供する。
パッチベースの敵攻撃は、物理的な視覚応用において最も現実的な脅威モデルと考えられている。
本研究では,スムージング技術に根ざした防御機構であるSmoothVLMを導入し,VLMをパッチ付き視覚プロンプトインジェクタの脅威から保護する。
論文 参考訳(メタデータ) (2024-05-17T04:19:19Z) - Revisiting the Adversarial Robustness of Vision Language Models: a Multimodal Perspective [32.42201363966808]
マルチモーダル攻撃下での対角的ロバスト性に対する視覚言語モデルの適用について検討する。
本研究は,マルチモーダル・コントラッシブ・コントラスト・トレーニング・ロスを提案し,クリーン・アトラッシブ・テキストの埋め込みと,その逆・クリーンな視覚的特徴との整合性を示す。
2つのタスクにまたがる15のデータセットの実験により、我々の手法はCLIPの対角的堅牢性を大幅に改善することを示した。
論文 参考訳(メタデータ) (2024-04-30T06:34:21Z) - VL-Trojan: Multimodal Instruction Backdoor Attacks against
Autoregressive Visual Language Models [65.23688155159398]
VLM(Autoregressive Visual Language Models)は、マルチモーダルなコンテキストにおいて、驚くべき数ショットの学習機能を示す。
近年,マルチモーダル・インストラクション・チューニングが提案されている。
敵は、指示や画像に埋め込まれたトリガーで有毒なサンプルを注入することで、バックドアを埋め込むことができる。
本稿では,マルチモーダルなバックドア攻撃,すなわちVL-Trojanを提案する。
論文 参考訳(メタデータ) (2024-02-21T14:54:30Z) - Adversarial Prompt Tuning for Vision-Language Models [86.5543597406173]
AdvPT(Adversarial Prompt Tuning)は、視覚言語モデル(VLM)における画像エンコーダの対向ロバスト性を高める技術である。
我々は,AdvPTが白箱攻撃や黒箱攻撃に対する抵抗性を向上し,既存の画像処理による防御技術と組み合わせることで相乗効果を示すことを示した。
論文 参考訳(メタデータ) (2023-11-19T07:47:43Z) - Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。
我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。
本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文 参考訳(メタデータ) (2023-06-22T22:13:03Z) - On Evaluating Adversarial Robustness of Large Vision-Language Models [64.66104342002882]
大規模視覚言語モデル(VLM)のロバスト性を,最も現実的で高リスクな環境で評価する。
特に,CLIP や BLIP などの事前学習モデルに対して,まず攻撃対象のサンプルを作成する。
これらのVLM上のブラックボックスクエリは、ターゲットの回避の効果をさらに向上させることができる。
論文 参考訳(メタデータ) (2023-05-26T13:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。