Fugu-MT 論文翻訳(概要): AnyAttack: Towards Large-scale Self-supervised Generation of Targeted Adversarial Examples for Vision-Language Models

論文の概要: AnyAttack: Towards Large-scale Self-supervised Generation of Targeted Adversarial Examples for Vision-Language Models

arxiv url: http://arxiv.org/abs/2410.05346v1
Date: Mon, 7 Oct 2024 09:45:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-01 19:17:28.529227
Title: AnyAttack: Towards Large-scale Self-supervised Generation of Targeted Adversarial Examples for Vision-Language Models
Title（参考訳）: AnyAttack: 視覚・言語モデルを対象とした大規模自己監督型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型
Authors: Jiaming Zhang, Junhong Ye, Xingjun Ma, Yige Li, Yunfan Yang, Jitao Sang, Dit-Yan Yeung,
Abstract要約: VLM(Vision-Language Models)は、画像ベースの敵攻撃に対して脆弱である。本稿では,ラベル管理なしでVLMのターゲット画像を生成する自己教師型フレームワークであるAnyAttackを提案する。
参考スコア（独自算出の注目度）: 41.044385916368455
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Due to their multimodal capabilities, Vision-Language Models (VLMs) have found numerous impactful applications in real-world scenarios. However, recent studies have revealed that VLMs are vulnerable to image-based adversarial attacks, particularly targeted adversarial images that manipulate the model to generate harmful content specified by the adversary. Current attack methods rely on predefined target labels to create targeted adversarial attacks, which limits their scalability and applicability for large-scale robustness evaluations. In this paper, we propose AnyAttack, a self-supervised framework that generates targeted adversarial images for VLMs without label supervision, allowing any image to serve as a target for the attack. To address the limitation of existing methods that require label supervision, we introduce a contrastive loss that trains a generator on a large-scale unlabeled image dataset, LAION-400M dataset, for generating targeted adversarial noise. This large-scale pre-training endows our method with powerful transferability across a wide range of VLMs. Extensive experiments on five mainstream open-source VLMs (CLIP, BLIP, BLIP2, InstructBLIP, and MiniGPT-4) across three multimodal tasks (image-text retrieval, multimodal classification, and image captioning) demonstrate the effectiveness of our attack. Additionally, we successfully transfer AnyAttack to multiple commercial VLMs, including Google's Gemini, Claude's Sonnet, and Microsoft's Copilot. These results reveal an unprecedented risk to VLMs, highlighting the need for effective countermeasures.
Abstract（参考訳）: マルチモーダルな機能のため、VLM(Vision-Language Models)は現実世界のシナリオで多くの影響のあるアプリケーションを発見している。しかし、最近の研究では、VLMは画像ベースの敵攻撃、特に敵が特定する有害なコンテンツを生成するためにモデルを操作するターゲットの敵画像に対して脆弱であることが明らかになっている。現在の攻撃方法は、目標とする敵攻撃を生成するために事前に定義された目標ラベルに依存しており、大規模なロバストネス評価に対するスケーラビリティと適用性を制限している。本稿では,ラベル管理なしでVLMの標的画像を生成する自己教師型フレームワークであるAnyAttackを提案する。ラベル管理を必要とする既存の手法の制限に対処するため,大規模未ラベル画像データセットであるLAION-400Mデータセット上で生成者を訓練し,対象とする対向雑音を発生させるコントラスト損失を導入する。この大規模事前学習は,VLMの広い範囲にわたる強力な伝達性を実現する。 5つの主要なオープンソースVLM(CLIP, BLIP, BLIP2, InstructBLIP, MiniGPT-4)の多モーダルタスク(画像テキスト検索, マルチモーダル分類, 画像キャプション)に対する大規模な実験により, 攻撃の有効性が示された。さらに、AnyAttackをGoogleのGemini、ClaudeのSonnet、MicrosoftのCopilotなど、複数の商用VLMに転送することに成功しました。これらの結果は、VLMに対する前例のないリスクを明らかにし、効果的な対策の必要性を浮き彫りにした。

関連論文リスト

Adversarial Confusion Attack: Disrupting Multimodal Large Language Models [1.4037095606573826]
マルチモーダル大言語モデル(MLLM)に対する新たな脅威クラスであるAdversarial Confusion Attackを導入する。ジェイルブレイクやターゲットの誤分類とは異なり、目標は、モデルが不整合または確実な出力を生成するような、系統的な破壊を誘発することである。現実的な応用としては、MLLMを搭載したAIエージェントが確実に動作しないように、そのような敵対的なイメージをウェブサイトに埋め込むことがある。
論文参考訳（メタデータ） (2025-11-25T17:00:31Z)
Multi-Faceted Attack: Exposing Cross-Model Vulnerabilities in Defense-Equipped Vision-Language Models [54.61181161508336]
MFA(Multi-Faceted Attack)は、防衛装備型ビジョンランゲージモデル(VLM)の一般的な安全性上の脆弱性を明らかにするフレームワークである。 MFAの中核となるコンポーネントはアテンション・トランスファー・アタック(ATA)であり、競合する目的を持ったメタタスク内に有害な命令を隠す。 MFAは58.5%の成功率を獲得し、既存の手法を一貫して上回っている。
論文参考訳（メタデータ） (2025-11-20T07:12:54Z)
MTAttack: Multi-Target Backdoor Attacks against Large Vision-Language Models [52.37749859972453]
我々は,LVLMにおける複数のトリガターゲットマッピングを正確に行うための,最初のマルチターゲットバックドアアタックフレームワークであるMTAttackを提案する。人気のあるベンチマークの実験では、マルチターゲット攻撃に対するMTAttackの成功率が高いことが示されている。我々の攻撃は、データセット間での強力な一般化性と、バックドア防衛戦略に対する堅牢性を示す。
論文参考訳（メタデータ） (2025-11-13T09:00:21Z)
Universal Camouflage Attack on Vision-Language Models for Autonomous Driving [67.34987318443761]
自動運転のためのビジュアル言語モデリングが、有望な研究方向として浮上している。 VLM-ADは、敵の攻撃による深刻なセキュリティ脅威に弱いままである。 VLM-ADのための最初のユニバーサルカモフラージュ攻撃フレームワークを提案する。
論文参考訳（メタデータ） (2025-09-24T14:52:01Z)
Attention! You Vision Language Model Could Be Maliciously Manipulated [5.504125658123538]
視覚言語モデルマニピュレーションアタック(VMA)を提案する。 VMAは、対向摂動を効果的に最適化するために、一階と二階の運動量最適化技術と微分可能な変換機構を統合する。脱獄、ハイジャック、プライバシー侵害、Denial-of-Service、スポンジの生成など、さまざまな攻撃を実装するために利用することができる。
論文参考訳（メタデータ） (2025-05-26T12:38:58Z)
Transferable Adversarial Attacks on Black-Box Vision-Language Models [63.22532779621001]
敵対的攻撃は、テキストのみのコンテキストとビジョンのみのコンテキストにおいて、オープンソースからプロプライエタリなブラックボックスモデルに移行することができる。攻撃者は、特定の攻撃者による視覚情報の解釈を誘導するために、摂動を作れます。普遍的な摂動 -- 広い範囲のイメージに適用可能な修正 -- は、これらの誤解釈を一貫して引き起こすことを発見した。
論文参考訳（メタデータ） (2025-05-02T06:51:11Z)
Effective Black-Box Multi-Faceted Attacks Breach Vision Large Language Model Guardrails [32.627286570942445]
MultiFaceted Attackは、視覚大言語モデルにおける多層防御をバイパスするために設計されたアタックフレームワークである。 VLLMのマルチモーダルな性質を利用して、画像を通して有害なシステムプロンプトを注入する。攻撃率は61.56%で、最先端の手法を少なくとも42.18%上回っている。
論文参考訳（メタデータ） (2025-02-09T04:21:27Z)
Doubly-Universal Adversarial Perturbations: Deceiving Vision-Language Models Across Both Images and Text with a Single Perturbation [15.883062174902093]
VLM(Large Vision-Language Models)は、視覚エンコーダとLLM(Large Language Model)を統合することで、マルチモーダルタスクにまたがる顕著な性能を示す。 VLMに特化して設計された新しいUAPについて紹介する:Douubly-Universal Adversarial Perturbation (Douubly-UAP)
論文参考訳（メタデータ） (2024-12-11T05:23:34Z)
Effective and Efficient Adversarial Detection for Vision-Language Models via A Single Vector [97.92369017531038]
Diverse hArmful Responses (RADAR) を用いた新しい laRge-scale Adervsarial 画像データセットを構築した。そこで我々は,視覚言語モデル (VLM) の隠れ状態から抽出した1つのベクトルを利用して,入力中の良質な画像に対して対向画像を検出する,新しいiN時間埋め込み型AdveRSarial Image Detectction (NEARSIDE) 法を開発した。
論文参考訳（メタデータ） (2024-10-30T10:33:10Z)
Hiding-in-Plain-Sight (HiPS) Attack on CLIP for Targetted Object Removal from Images [3.537369004801589]
Hiding-in-Plain-Sight (HiPS) 攻撃はターゲットオブジェクトを選択的に隠蔽することでモデル予測を微調整する本稿では,HPS-clsとHiPS-capの2種類のHiPS攻撃モデルを提案し,下流画像キャプションモデルへの転送の有効性を実証した。
論文参考訳（メタデータ） (2024-10-16T20:11:32Z)
White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文参考訳（メタデータ） (2024-05-28T07:13:30Z)
Adversarial Robustness for Visual Grounding of Multimodal Large Language Models [49.71757071535619]
MLLM(Multi-modal Large Language Models)は近年,様々な視覚言語タスクのパフォーマンス向上を実現している。 MLLMでは、視覚的グラウンドリングの対角的堅牢性は未発見のままである。本稿では,次の3つの攻撃パラダイムを提案する。
論文参考訳（メタデータ） (2024-05-16T10:54:26Z)
Revisiting the Adversarial Robustness of Vision Language Models: a Multimodal Perspective [42.04728834962863]
CLIPのような事前訓練された視覚言語モデル(VLM)は、様々な下流タスクにまたがる例外的な一般化を示している。近年の研究では、テキストベースおよびマルチモーダル攻撃に対する防御がほとんど未調査のままであり、敵攻撃に対する脆弱性が明らかにされている。本研究は,画像,テキスト,マルチモーダル入力を標的とした攻撃に対して,VLMの対角的堅牢性を改善するための最初の総合的研究である。
論文参考訳（メタデータ） (2024-04-30T06:34:21Z)
VL-Trojan: Multimodal Instruction Backdoor Attacks against Autoregressive Visual Language Models [65.23688155159398]
VLM(Autoregressive Visual Language Models)は、マルチモーダルなコンテキストにおいて、驚くべき数ショットの学習機能を示す。近年,マルチモーダル・インストラクション・チューニングが提案されている。敵は、指示や画像に埋め込まれたトリガーで有毒なサンプルを注入することで、バックドアを埋め込むことができる。本稿では,マルチモーダルなバックドア攻撃,すなわちVL-Trojanを提案する。
論文参考訳（メタデータ） (2024-02-21T14:54:30Z)
VLATTACK: Multimodal Adversarial Attacks on Vision-Language Tasks via Pre-trained Models [46.14455492739906]
VL(Vision-Language)事前訓練モデルは、多くのマルチモーダルタスクにおいて優位性を示している。既存のアプローチは主に、ホワイトボックス設定下での敵の堅牢性を探究することに焦点を当てている。本稿では,VLATTACKを用いて,画像とテキストの摂動を単一モードレベルとマルチモードレベルの両方から分離し,対向サンプルを生成する。
論文参考訳（メタデータ） (2023-10-07T02:18:52Z)
Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文参考訳（メタデータ） (2023-06-22T22:13:03Z)
On Evaluating Adversarial Robustness of Large Vision-Language Models [64.66104342002882]
大規模視覚言語モデル(VLM)のロバスト性を,最も現実的で高リスクな環境で評価する。特に,CLIP や BLIP などの事前学習モデルに対して,まず攻撃対象のサンプルを作成する。これらのVLM上のブラックボックスクエリは、ターゲットの回避の効果をさらに向上させることができる。
論文参考訳（メタデータ） (2023-05-26T13:49:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。