Fugu-MT 論文翻訳(概要): White-box Multimodal Jailbreaks Against Large Vision-Language Models

論文の概要: White-box Multimodal Jailbreaks Against Large Vision-Language Models

arxiv url: http://arxiv.org/abs/2405.17894v1
Date: Tue, 28 May 2024 07:13:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-29 19:57:23.513206
Title: White-box Multimodal Jailbreaks Against Large Vision-Language Models
Title（参考訳）: 大規模ビジョンランゲージモデルに対するホワイトボックスマルチモーダルジェイルブレイク
Authors: Ruofan Wang, Xingjun Ma, Hanxu Zhou, Chuanjun Ji, Guangnan Ye, Yu-Gang Jiang,
Abstract要約: 本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
参考スコア（独自算出の注目度）: 61.97578116584653
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advancements in Large Vision-Language Models (VLMs) have underscored their superiority in various multimodal tasks. However, the adversarial robustness of VLMs has not been fully explored. Existing methods mainly assess robustness through unimodal adversarial attacks that perturb images, while assuming inherent resilience against text-based attacks. Different from existing attacks, in this work we propose a more comprehensive strategy that jointly attacks both text and image modalities to exploit a broader spectrum of vulnerability within VLMs. Specifically, we propose a dual optimization objective aimed at guiding the model to generate affirmative responses with high toxicity. Our attack method begins by optimizing an adversarial image prefix from random noise to generate diverse harmful responses in the absence of text input, thus imbuing the image with toxic semantics. Subsequently, an adversarial text suffix is integrated and co-optimized with the adversarial image prefix to maximize the probability of eliciting affirmative responses to various harmful instructions. The discovered adversarial image prefix and text suffix are collectively denoted as a Universal Master Key (UMK). When integrated into various malicious queries, UMK can circumvent the alignment defenses of VLMs and lead to the generation of objectionable content, known as jailbreaks. The experimental results demonstrate that our universal attack strategy can effectively jailbreak MiniGPT-4 with a 96% success rate, highlighting the vulnerability of VLMs and the urgent need for new alignment strategies.
Abstract（参考訳）: 近年のVLM(Large Vision-Language Models)の進歩は、様々なマルチモーダルタスクにおいて、その優位性を裏付けている。しかしながら、VLMの対角的堅牢性は十分には研究されていない。既存の手法は主に、テキストベースの攻撃に対して固有のレジリエンスを仮定しながら、画像を摂動する一元対向攻撃によるロバスト性を評価する。既存の攻撃とは違って、本研究では、テキストと画像のモダリティの両方を共同攻撃して、VLM内のより広範な脆弱性を悪用する、より包括的な戦略を提案する。具体的には,モデルに高毒性の肯定応答を生成するための2つの最適化手法を提案する。本手法は, テキスト入力がない場合に, 有害な応答を多様に生成するために, 逆画像プレフィックスをランダムノイズから最適化することから始める。その後、逆境テキスト接尾辞と逆境画像接頭辞とを一体化して、様々な有害な指示に対する肯定応答を誘発する確率を最大化する。検出された逆画像プレフィックスとテキスト接尾辞は総称してユニバーサルマスターキー(UMK)と表記される。様々な悪意のあるクエリに統合されると、UMKはVLMのアライメント防御を回避し、jailbreaksとして知られる好ましくないコンテンツを生成する。実験の結果,我々のユニバーサルアタック戦略は,96%の成功率でMiniGPT-4を効果的に脱獄し,VLMの脆弱性と新たなアライメント戦略の必要性を強調した。

関連論文リスト

JPS: Jailbreak Multimodal Large Language Models with Collaborative Visual Perturbation and Textual Steering [73.962469626788]
マルチモーダルな大規模言語モデル(MLLM)に対するジェイルブレイク攻撃は重要な研究課題である。 JPS, UnderlineJailbreak MLLMs with collaborative visual underlinePerturbation and textual underlineSteering。
論文参考訳（メタデータ） (2025-08-07T07:14:01Z)
Align is not Enough: Multimodal Universal Jailbreak Attack against Multimodal Large Language Models [83.80177564873094]
マルチモーダル・ユニバーサル・ジェイルブレイク・アタック・フレームワークを提案する。 LLaVA,Yi-VL,MiniGPT4,MiniGPT-v2,InstructBLIPなどのMLLMの望ましくないコンテキスト生成を評価する。本研究は,MLLMにおける堅牢な安全対策の必要性を浮き彫りにするものである。
論文参考訳（メタデータ） (2025-06-02T04:33:56Z)
Enhancing Adversarial Robustness of Vision Language Models via Adversarial Mixture Prompt Tuning [14.714776642137247]
Adversarial Mixture Prompt Tuning (AMPT)は、混合テキストプロンプトを学習して、より堅牢なテキスト機能を得る。一連の実験により,本手法は最先端手法よりも高い対角性が得られることが示された。
論文参考訳（メタデータ） (2025-05-23T06:04:15Z)
Implicit Jailbreak Attacks via Cross-Modal Information Concealment on Vision-Language Models [20.99874786089634]
以前のジェイルブレイク攻撃は、しばしば悪意のある命令をテキストから視覚など、整合性の低いモダリティに注入する。 IJAと呼ばれる新しい暗黙のジェイルブレイクフレームワークを提案し、少なくとも重要なビットステガノグラフィーによって悪意ある命令を画像に密かに埋め込む。 GPT-4o や Gemini-1.5 Pro などの商用モデルでは,攻撃成功率は90% 以上で,平均 3 クエリのみを用いて達成している。
論文参考訳（メタデータ） (2025-05-22T09:34:47Z)
Retention Score: Quantifying Jailbreak Risks for Vision Language Models [60.48306899271866]
VLM(Vision-Language Models)はLarge Language Models (LLM)と統合され、マルチモーダル機械学習機能を強化する。本研究の目的は, モデル安全コンプライアンスを損なう可能性のある脱獄攻撃に対するVLMのレジリエンスを評価し, 有害な出力をもたらすことにある。逆入力摂動に対するVLMの頑健性を評価するために,textbfRetention Scoreと呼ばれる新しい指標を提案する。
論文参考訳（メタデータ） (2024-12-23T13:05:51Z)
Adversarial Tuning: Defending Against Jailbreak Attacks for LLMs [13.317364896194903]
本稿では,大規模言語モデルの汎用防衛能力を高めるための2段階の逆調整フレームワークを提案する。第1段階では,トークンレベルの逆数生成を効率的に行うために,階層型メタユニバーサル逆数学習を導入する。第2段階では,自動対向プロンプト学習により,意味レベルの対向プロンプトを反復的に洗練する手法を提案する。
論文参考訳（メタデータ） (2024-06-07T15:37:15Z)
Jailbreak Vision Language Models via Bi-Modal Adversarial Prompt [60.54666043358946]
本稿では,テキストと視覚のプロンプトを協調的に最適化することにより,ジェイルブレイクを実行するバイモーダル・アドバイサル・プロンプト・アタック(BAP)を提案する。特に,大規模言語モデルを用いてジェイルブレイクの失敗を分析し,テキストのプロンプトを洗練させるために連鎖推論を採用する。
論文参考訳（メタデータ） (2024-06-06T13:00:42Z)
Visual-RolePlay: Universal Jailbreak Attack on MultiModal Large Language Models via Role-playing Image Character [5.927633974815329]
本稿では,MLLMジェイルブレイク攻撃に対する視覚ロールプレイ(VRP)と呼ばれる新しい効果的手法を提案する。 VRPは、リスクの高い文字の詳細な記述を生成し、その記述に基づいて対応する画像を生成する。良質なロールプレイインストラクションテキストと組み合わせると、これらのハイリスクなキャラクターイメージはMLLMを効果的に誤解して悪意ある応答を発生させる。
論文参考訳（メタデータ） (2024-05-25T17:17:18Z)
Safeguarding Vision-Language Models Against Patched Visual Prompt Injectors [31.383591942592467]
視覚言語モデル(VLM)は、視覚とテキストのデータを組み合わせて理解と相互作用を強化する革新的な方法を提供する。パッチベースの敵攻撃は、物理的な視覚応用において最も現実的な脅威モデルと考えられている。本研究では,スムージング技術に根ざした防御機構であるSmoothVLMを導入し,VLMをパッチ付き視覚プロンプトインジェクタの脅威から保護する。
論文参考訳（メタデータ） (2024-05-17T04:19:19Z)
Revisiting the Adversarial Robustness of Vision Language Models: a Multimodal Perspective [42.04728834962863]
CLIPのような事前訓練された視覚言語モデル(VLM)は、様々な下流タスクにまたがる例外的な一般化を示している。近年の研究では、テキストベースおよびマルチモーダル攻撃に対する防御がほとんど未調査のままであり、敵攻撃に対する脆弱性が明らかにされている。本研究は,画像,テキスト,マルチモーダル入力を標的とした攻撃に対して,VLMの対角的堅牢性を改善するための最初の総合的研究である。
論文参考訳（メタデータ） (2024-04-30T06:34:21Z)
VL-Trojan: Multimodal Instruction Backdoor Attacks against Autoregressive Visual Language Models [65.23688155159398]
VLM(Autoregressive Visual Language Models)は、マルチモーダルなコンテキストにおいて、驚くべき数ショットの学習機能を示す。近年,マルチモーダル・インストラクション・チューニングが提案されている。敵は、指示や画像に埋め込まれたトリガーで有毒なサンプルを注入することで、バックドアを埋め込むことができる。本稿では,マルチモーダルなバックドア攻撃,すなわちVL-Trojanを提案する。
論文参考訳（メタデータ） (2024-02-21T14:54:30Z)
Adversarial Prompt Tuning for Vision-Language Models [86.5543597406173]
AdvPT(Adversarial Prompt Tuning)は、視覚言語モデル(VLM)における画像エンコーダの対向ロバスト性を高める技術である。我々は,AdvPTが白箱攻撃や黒箱攻撃に対する抵抗性を向上し,既存の画像処理による防御技術と組み合わせることで相乗効果を示すことを示した。
論文参考訳（メタデータ） (2023-11-19T07:47:43Z)
Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文参考訳（メタデータ） (2023-06-22T22:13:03Z)
On Evaluating Adversarial Robustness of Large Vision-Language Models [64.66104342002882]
大規模視覚言語モデル(VLM)のロバスト性を,最も現実的で高リスクな環境で評価する。特に,CLIP や BLIP などの事前学習モデルに対して,まず攻撃対象のサンプルを作成する。これらのVLM上のブラックボックスクエリは、ターゲットの回避の効果をさらに向上させることができる。
論文参考訳（メタデータ） (2023-05-26T13:49:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。