論文の概要: Transferable Adversarial Attacks on Black-Box Vision-Language Models
- arxiv url: http://arxiv.org/abs/2505.01050v1
- Date: Fri, 02 May 2025 06:51:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-05 17:21:19.939292
- Title: Transferable Adversarial Attacks on Black-Box Vision-Language Models
- Title(参考訳): ブラックボックスビジョンランゲージモデルにおけるトランスファー可能な敵攻撃
- Authors: Kai Hu, Weichen Yu, Li Zhang, Alexander Robey, Andy Zou, Chengming Xu, Haoqi Hu, Matt Fredrikson,
- Abstract要約: 敵対的攻撃は、テキストのみのコンテキストとビジョンのみのコンテキストにおいて、オープンソースからプロプライエタリなブラックボックスモデルに移行することができる。
攻撃者は、特定の攻撃者による視覚情報の解釈を誘導するために、摂動を作れます。
普遍的な摂動 -- 広い範囲のイメージに適用可能な修正 -- は、これらの誤解釈を一貫して引き起こすことを発見した。
- 参考スコア(独自算出の注目度): 63.22532779621001
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Large Language Models (VLLMs) are increasingly deployed to offer advanced capabilities on inputs comprising both text and images. While prior research has shown that adversarial attacks can transfer from open-source to proprietary black-box models in text-only and vision-only contexts, the extent and effectiveness of such vulnerabilities remain underexplored for VLLMs. We present a comprehensive analysis demonstrating that targeted adversarial examples are highly transferable to widely-used proprietary VLLMs such as GPT-4o, Claude, and Gemini. We show that attackers can craft perturbations to induce specific attacker-chosen interpretations of visual information, such as misinterpreting hazardous content as safe, overlooking sensitive or restricted material, or generating detailed incorrect responses aligned with the attacker's intent. Furthermore, we discover that universal perturbations -- modifications applicable to a wide set of images -- can consistently induce these misinterpretations across multiple proprietary VLLMs. Our experimental results on object recognition, visual question answering, and image captioning show that this vulnerability is common across current state-of-the-art models, and underscore an urgent need for robust mitigations to ensure the safe and secure deployment of VLLMs.
- Abstract(参考訳): 視覚大言語モデル(VLLM)は、テキストと画像の両方からなる入力に高度な機能を提供するために、ますます多くデプロイされている。
以前の研究では、敵対的攻撃はテキストのみのコンテキストとビジョンのみのコンテキストで、オープンソースからプロプライエタリなブラックボックスモデルに移行可能であることが示されているが、これらの脆弱性の程度と有効性は、VLLMでは未定のままである。
本稿では,GPT-4oやClaude,Geminiなど,広く使用されているプロプライエタリなVLLMに対して,ターゲットとなる敵のサンプルが高い転送性を持つことを示す包括的解析を行った。
攻撃者は、危険コンテンツを安全と誤解釈したり、機密性や制限された材料を見落としたり、攻撃者の意図に沿った詳細な不正確な応答を発生させるような、特定の攻撃者・攻撃者・攻撃者・攻撃者の視覚情報の解釈を誘導するために摂動を行うことができることを示す。
さらに、広い範囲のイメージに適用可能な、普遍的な摂動は、複数のプロプライエタリなVLLMにわたって、これらの誤解釈を一貫して引き起こすことができる。
対象認識, 視覚的質問応答, 画像キャプションによる実験結果から, この脆弱性は現在の最先端モデルに共通しており, VLLMの安全かつセキュアな展開を確実にするための堅牢な緩和の必要性が顕著であることが示された。
関連論文リスト
- Break the Visual Perception: Adversarial Attacks Targeting Encoded Visual Tokens of Large Vision-Language Models [15.029014337718849]
大きな視覚言語モデル(LVLM)は、視覚情報を大きな言語モデルに統合し、目覚ましい多モーダルな会話能力を示す。
一般に、LVLMは視覚エンコーダに頼って画像を視覚トークンに変換するが、これは言語モデルが画像の内容を効果的に知覚するのに不可欠である。
本稿では,VT-Attackと呼ばれる非標的攻撃手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T09:06:56Z) - AnyAttack: Towards Large-scale Self-supervised Adversarial Attacks on Vision-language Models [39.34959092321762]
VLM(Vision-Language Models)は、画像ベースの敵攻撃に対して脆弱である。
我々は、従来の攻撃の制限を超越した自己教師型フレームワークであるAnyAttackを紹介する。
論文 参考訳(メタデータ) (2024-10-07T09:45:18Z) - Safeguarding Vision-Language Models Against Patched Visual Prompt Injectors [31.383591942592467]
視覚言語モデル(VLM)は、視覚とテキストのデータを組み合わせて理解と相互作用を強化する革新的な方法を提供する。
パッチベースの敵攻撃は、物理的な視覚応用において最も現実的な脅威モデルと考えられている。
本研究では,スムージング技術に根ざした防御機構であるSmoothVLMを導入し,VLMをパッチ付き視覚プロンプトインジェクタの脅威から保護する。
論文 参考訳(メタデータ) (2024-05-17T04:19:19Z) - SA-Attack: Improving Adversarial Transferability of Vision-Language
Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。
本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-08T09:08:50Z) - Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。
我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。
本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文 参考訳(メタデータ) (2023-06-22T22:13:03Z) - On Evaluating Adversarial Robustness of Large Vision-Language Models [64.66104342002882]
大規模視覚言語モデル(VLM)のロバスト性を,最も現実的で高リスクな環境で評価する。
特に,CLIP や BLIP などの事前学習モデルに対して,まず攻撃対象のサンプルを作成する。
これらのVLM上のブラックボックスクエリは、ターゲットの回避の効果をさらに向上させることができる。
論文 参考訳(メタデータ) (2023-05-26T13:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。