論文の概要: Multi-Faceted Attack: Exposing Cross-Model Vulnerabilities in Defense-Equipped Vision-Language Models
- arxiv url: http://arxiv.org/abs/2511.16110v1
- Date: Thu, 20 Nov 2025 07:12:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.511964
- Title: Multi-Faceted Attack: Exposing Cross-Model Vulnerabilities in Defense-Equipped Vision-Language Models
- Title(参考訳): 多面攻撃:防衛装備ビジョンランゲージモデルにおけるクロスモデル脆弱性の露呈
- Authors: Yijun Yang, Lichao Wang, Jianping Zhang, Chi Harold Liu, Lanqing Hong, Qiang Xu,
- Abstract要約: MFA(Multi-Faceted Attack)は、防衛装備型ビジョンランゲージモデル(VLM)の一般的な安全性上の脆弱性を明らかにするフレームワークである。
MFAの中核となるコンポーネントはアテンション・トランスファー・アタック(ATA)であり、競合する目的を持ったメタタスク内に有害な命令を隠す。
MFAは58.5%の成功率を獲得し、既存の手法を一貫して上回っている。
- 参考スコア(独自算出の注目度): 54.61181161508336
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The growing misuse of Vision-Language Models (VLMs) has led providers to deploy multiple safeguards, including alignment tuning, system prompts, and content moderation. However, the real-world robustness of these defenses against adversarial attacks remains underexplored. We introduce Multi-Faceted Attack (MFA), a framework that systematically exposes general safety vulnerabilities in leading defense-equipped VLMs such as GPT-4o, Gemini-Pro, and Llama-4. The core component of MFA is the Attention-Transfer Attack (ATA), which hides harmful instructions inside a meta task with competing objectives. We provide a theoretical perspective based on reward hacking to explain why this attack succeeds. To improve cross-model transferability, we further introduce a lightweight transfer-enhancement algorithm combined with a simple repetition strategy that jointly bypasses both input-level and output-level filters without model-specific fine-tuning. Empirically, we show that adversarial images optimized for one vision encoder transfer broadly to unseen VLMs, indicating that shared visual representations create a cross-model safety vulnerability. Overall, MFA achieves a 58.5% success rate and consistently outperforms existing methods. On state-of-the-art commercial models, MFA reaches a 52.8% success rate, surpassing the second-best attack by 34%. These results challenge the perceived robustness of current defense mechanisms and highlight persistent safety weaknesses in modern VLMs. Code: https://github.com/cure-lab/MultiFacetedAttack
- Abstract(参考訳): VLM(Vision-Language Models)の誤用が増加し,アライメントチューニングやシステムプロンプト,コンテンツモデレーションなど,複数のセーフガードが提供されるようになった。
しかし、敵の攻撃に対するこれらの防衛の現実的な堅牢性はまだ未定である。
我々は,GPT-4o,Gemini-Pro,Llama-4などの防衛装備VLMにおいて,一般的な安全上の脆弱性を体系的に暴露するフレームワークであるMulti-Faceted Attack(MFA)を紹介する。
MFAの中核となるコンポーネントはアテンション・トランスファー・アタック(ATA)であり、競合する目的を持ったメタタスク内に有害な命令を隠す。
我々は、この攻撃がなぜ成功したのかを説明するために、報酬ハッキングに基づく理論的視点を提供する。
さらに,モデル固有の微調整を伴わずに,入力レベルと出力レベルの両方のフィルタを相互にバイパスする簡単な繰り返し戦略と組み合わせた,軽量なトランスファーエンハンスメントアルゴリズムを導入する。
実験により、1つの視覚エンコーダに最適化された対向画像が見えないVLMに広範に転送され、共有された視覚表現がモデル間安全性の脆弱性を生じさせることを示す。
全体として、MFAは58.5%の成功率に達し、既存の手法を一貫して上回っている。
最先端の商業モデルでは、MFAは52.8%の成功率に達し、第2位の攻撃を34%上回った。
これらの結果は、現在の防衛機構の堅牢性に対する認識に挑戦し、現代のVLMの持続的安全性の弱点を浮き彫りにした。
コード:https://github.com/cure-lab/MultiFacetedAttack
関連論文リスト
- CeTAD: Towards Certified Toxicity-Aware Distance in Vision Language Models [16.5022773312661]
本稿では,ジェイルブレイク攻撃に対する大規模視覚言語モデルの保護を目的とした,普遍的な認証防衛フレームワークを提案する。
まず、悪意のある応答と意図した応答のセマンティックな差異を定量化する新しい距離尺度を提案する。
そして, ランダム化スムーシングを用いて, 形式的堅牢性を保証するための回帰認証手法を考案する。
論文 参考訳(メタデータ) (2025-03-08T17:33:55Z) - Effective Black-Box Multi-Faceted Attacks Breach Vision Large Language Model Guardrails [32.627286570942445]
MultiFaceted Attackは、視覚大言語モデルにおける多層防御をバイパスするために設計されたアタックフレームワークである。
VLLMのマルチモーダルな性質を利用して、画像を通して有害なシステムプロンプトを注入する。
攻撃率は61.56%で、最先端の手法を少なくとも42.18%上回っている。
論文 参考訳(メタデータ) (2025-02-09T04:21:27Z) - Retention Score: Quantifying Jailbreak Risks for Vision Language Models [60.48306899271866]
VLM(Vision-Language Models)はLarge Language Models (LLM)と統合され、マルチモーダル機械学習機能を強化する。
本研究の目的は, モデル安全コンプライアンスを損なう可能性のある脱獄攻撃に対するVLMのレジリエンスを評価し, 有害な出力をもたらすことにある。
逆入力摂動に対するVLMの頑健性を評価するために,textbfRetention Scoreと呼ばれる新しい指標を提案する。
論文 参考訳(メタデータ) (2024-12-23T13:05:51Z) - Exploring Visual Vulnerabilities via Multi-Loss Adversarial Search for Jailbreaking Vision-Language Models [92.79804303337522]
VLM(Vision-Language Models)は、安全アライメントの問題に対して脆弱である。
本稿では、シナリオ認識画像生成を利用したセマンティックアライメントのための新しいジェイルブレイクフレームワークであるMLAIを紹介する。
大規模な実験はMLAIの重大な影響を示し、MiniGPT-4で77.75%、LLaVA-2で82.80%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2024-11-27T02:40:29Z) - Safeguarding Vision-Language Models Against Patched Visual Prompt Injectors [31.383591942592467]
視覚言語モデル(VLM)は、視覚とテキストのデータを組み合わせて理解と相互作用を強化する革新的な方法を提供する。
パッチベースの敵攻撃は、物理的な視覚応用において最も現実的な脅威モデルと考えられている。
本研究では,スムージング技術に根ざした防御機構であるSmoothVLMを導入し,VLMをパッチ付き視覚プロンプトインジェクタの脅威から保護する。
論文 参考訳(メタデータ) (2024-05-17T04:19:19Z) - On Evaluating Adversarial Robustness of Large Vision-Language Models [64.66104342002882]
大規模視覚言語モデル(VLM)のロバスト性を,最も現実的で高リスクな環境で評価する。
特に,CLIP や BLIP などの事前学習モデルに対して,まず攻撃対象のサンプルを作成する。
これらのVLM上のブラックボックスクエリは、ターゲットの回避の効果をさらに向上させることができる。
論文 参考訳(メタデータ) (2023-05-26T13:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。