Fugu-MT 論文翻訳(概要): Crafting Adversarial Inputs for Large Vision-Language Models Using Black-Box Optimization

論文の概要: Crafting Adversarial Inputs for Large Vision-Language Models Using Black-Box Optimization

arxiv url: http://arxiv.org/abs/2601.01747v2
Date: Thu, 08 Jan 2026 10:46:04 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-09 15:04:17.512342
Title: Crafting Adversarial Inputs for Large Vision-Language Models Using Black-Box Optimization
Title（参考訳）: ブラックボックス最適化を用いた大規模視線モデルに対する逆入力法
Authors: Jiwei Guan, Haibo Jin, Haohan Wang,
Abstract要約: 同時摂動近似(ZO-SPSA)を用いたゼロ階最適化によるLVLM(Large Vision-Language Models)に対するブラックボックスジェイルブレイク攻撃を提案する。 InstructBLIP, LLaVA, MiniGPT-4の3つのLVLM上でZO-SPSAを評価し, InstructBLIPのジェイルブレイク成功率は83.0%であった。これらの知見は、ブラックボックスジェイルブレイクの現実的な実現可能性を強調し、現在のLVLMの安全性メカニズムにおける重大な弱点を明らかにしている。
参考スコア（独自算出の注目度）: 27.346913473981193
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advancements in Large Vision-Language Models (LVLMs) have shown groundbreaking capabilities across diverse multimodal tasks. However, these models remain vulnerable to adversarial jailbreak attacks, where adversaries craft subtle perturbations to bypass safety mechanisms and trigger harmful outputs. Existing white-box attacks methods require full model accessibility, suffer from computing costs and exhibit insufficient adversarial transferability, making them impractical for real-world, black-box settings. To address these limitations, we propose a black-box jailbreak attack on LVLMs via Zeroth-Order optimization using Simultaneous Perturbation Stochastic Approximation (ZO-SPSA). ZO-SPSA provides three key advantages: (i) gradient-free approximation by input-output interactions without requiring model knowledge, (ii) model-agnostic optimization without the surrogate model and (iii) lower resource requirements with reduced GPU memory consumption. We evaluate ZO-SPSA on three LVLMs, including InstructBLIP, LLaVA and MiniGPT-4, achieving the highest jailbreak success rate of 83.0% on InstructBLIP, while maintaining imperceptible perturbations comparable to white-box methods. Moreover, adversarial examples generated from MiniGPT-4 exhibit strong transferability to other LVLMs, with ASR reaching 64.18%. These findings underscore the real-world feasibility of black-box jailbreaks and expose critical weaknesses in the safety mechanisms of current LVLMs
Abstract（参考訳）: LVLM(Large Vision-Language Models)の最近の進歩は、多様なマルチモーダルタスクにまたがる画期的な能力を示している。しかし、これらのモデルは敵の脱獄攻撃に弱いままであり、敵は安全機構をバイパスし有害な出力を誘導するために微妙な摂動を仕掛けている。既存のホワイトボックス攻撃手法では、完全なモデルアクセシビリティが必要であり、計算コストに悩まされ、敵の移動性が不十分であり、現実のブラックボックス設定では実用的ではない。これらの制約に対処するため,ZO-SPSA (Sultaneous Perturbation Stochastic Approximation) を用いたゼロ階最適化によるLVLMに対するブラックボックスジェイルブレイク攻撃を提案する。 ZO-SPSAには3つの利点がある。 (i)モデル知識を必要としない入力-出力相互作用による勾配自由近似 (II)代用モデルと非代用モデルのないモデル非依存の最適化 (iii)GPUメモリ使用量の削減によるリソース要求の低減。 InstructBLIP, LLaVA, MiniGPT-4の3つのLVLM上でZO-SPSAを評価し, InstructBLIPのジェイルブレイク成功率は83.0%であり, ホワイトボックス法に匹敵する知覚不能な摂動を維持した。さらに、MiniGPT-4から生成された敵の例は、他のLVLMへの強い転送可能性を示し、ASRは64.18%に達した。これらの知見は、ブラックボックスジェイルブレイクの現実的実現可能性と、現在のLVLMの安全性機構における重大な弱点を明らかにするものである。

関連論文リスト

Odysseus: Jailbreaking Commercial Multimodal LLM-integrated Systems via Dual Steganography [77.44136793431893]
本稿では,悪質なクエリを隠蔽して良質な画像に埋め込むために,二重ステガノグラフィーを導入した新しいjailbreakパラダイムを提案する。我々のOdysseusはいくつかの先駆的で現実的なMLLM統合システムを脱獄し、最大99%の攻撃成功率を達成した。
論文参考訳（メタデータ） (2025-12-23T08:53:36Z)
SafePTR: Token-Level Jailbreak Defense in Multimodal LLMs via Prune-then-Restore Mechanism [123.54980913741828]
MLLM(Multimodal Large Language Models)は、視覚的推論をサポートするためにLLMを拡張する。 MLLMは、マルチモーダルなジェイルブレイク攻撃や安全なデプロイメントを妨げる可能性がある。セーフ・プルー・テン・レストア(Safe Prune-then-Restore, SafePTR)は、有害なトークンを脆弱な層で選択的にプルーすると同時に、その後の層で良質な機能を復元する、トレーニング不要の防御フレームワークである。
論文参考訳（メタデータ） (2025-07-02T09:22:03Z)
Guiding not Forcing: Enhancing the Transferability of Jailbreaking Attacks on LLMs via Removing Superfluous Constraints [81.14852921721793]
本研究の目的は,勾配に基づくジェイルブレイク手法の伝達可能性を理解し,向上することである。本稿では,トランスファービリティを解明し,過剰な制約を識別するための新しい概念的枠組みを提案する。提案手法は, 安全レベルを18.4%から50.3%に変化させたターゲットモデル全体のトランスファー攻撃成功率(T-ASR)を増加させる。
論文参考訳（メタデータ） (2025-02-25T07:47:41Z)
Towards Robust Multimodal Large Language Models Against Jailbreak Attacks [24.491648943977605]
本稿では,敵対的雑音を発生させる攻撃ステップとモデル更新ステップとを交互に行うSafeMLLMを紹介する。攻撃ステップでは、SafeMLLMは新たに提案されたコントラスト埋め込み攻撃(CoE-Attack)を通じて敵の摂動を発生させる。我々は,SafeMLLMを6つのMLLMと6つのジェイルブレイク法で比較した。
論文参考訳（メタデータ） (2025-02-02T03:45:49Z)
Retention Score: Quantifying Jailbreak Risks for Vision Language Models [60.48306899271866]
VLM(Vision-Language Models)はLarge Language Models (LLM)と統合され、マルチモーダル機械学習機能を強化する。本研究の目的は, モデル安全コンプライアンスを損なう可能性のある脱獄攻撃に対するVLMのレジリエンスを評価し, 有害な出力をもたらすことにある。逆入力摂動に対するVLMの頑健性を評価するために,textbfRetention Scoreと呼ばれる新しい指標を提案する。
論文参考訳（メタデータ） (2024-12-23T13:05:51Z)
PBI-Attack: Prior-Guided Bimodal Interactive Black-Box Jailbreak Attack for Toxicity Maximization [20.361084019182776]
そこで本研究では,前誘導バイモーダル対話型ブラックボックスジェイルブレイク攻撃による毒性評価を提案する。本手法は,LVLMを用いて有害なコーパスから有害な特徴を抽出することから始める。双方向の相互モーダル相互作用最適化により,これらの特徴を向上する。実験によると、PBI-Attackは従来の最先端のジェイルブレイク手法よりも優れている。
論文参考訳（メタデータ） (2024-12-08T11:14:16Z)
Exploring Visual Vulnerabilities via Multi-Loss Adversarial Search for Jailbreaking Vision-Language Models [92.79804303337522]
VLM(Vision-Language Models)は、安全アライメントの問題に対して脆弱である。本稿では、シナリオ認識画像生成を利用したセマンティックアライメントのための新しいジェイルブレイクフレームワークであるMLAIを紹介する。大規模な実験はMLAIの重大な影響を示し、MiniGPT-4で77.75%、LLaVA-2で82.80%の攻撃成功率を達成した。
論文参考訳（メタデータ） (2024-11-27T02:40:29Z)
Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [50.980446687774645]
本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。 Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文参考訳（メタデータ） (2024-10-24T06:36:12Z)
Cross-modality Information Check for Detecting Jailbreaking in Multimodal Large Language Models [17.663550432103534]
マルチモーダル大言語モデル(MLLM)は、多モーダル情報を包括的に理解するためにLLMの能力を拡張する。これらのモデルは、悪意のあるユーザーがターゲットモデルの安全アライメントを壊し、誤解を招く、有害な回答を発生させることができるジェイルブレイク攻撃の影響を受けやすい。本稿では,悪質な摂動画像入力を識別するプラグイン・アンド・プレイのジェイルブレイク検出装置であるCIDERを提案する。
論文参考訳（メタデータ） (2024-07-31T15:02:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。