論文の概要: Adversarial Attacks on Multimodal Agents
- arxiv url: http://arxiv.org/abs/2406.12814v1
- Date: Tue, 18 Jun 2024 17:32:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 17:49:20.173454
- Title: Adversarial Attacks on Multimodal Agents
- Title(参考訳): マルチモーダルエージェントの敵攻撃
- Authors: Chen Henry Wu, Jing Yu Koh, Ruslan Salakhutdinov, Daniel Fried, Aditi Raghunathan,
- Abstract要約: 視覚対応言語モデル(VLM)は、現在、実環境でのアクションを可能にする自律的なマルチモーダルエージェントの構築に使用されている。
攻撃エージェントは、環境への限られたアクセスと知識により、以前の攻撃よりも困難であるにもかかわらず、マルチモーダルエージェントが新たな安全リスクを生じさせることを示す。
- 参考スコア(独自算出の注目度): 73.97379283655127
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-enabled language models (VLMs) are now used to build autonomous multimodal agents capable of taking actions in real environments. In this paper, we show that multimodal agents raise new safety risks, even though attacking agents is more challenging than prior attacks due to limited access to and knowledge about the environment. Our attacks use adversarial text strings to guide gradient-based perturbation over one trigger image in the environment: (1) our captioner attack attacks white-box captioners if they are used to process images into captions as additional inputs to the VLM; (2) our CLIP attack attacks a set of CLIP models jointly, which can transfer to proprietary VLMs. To evaluate the attacks, we curated VisualWebArena-Adv, a set of adversarial tasks based on VisualWebArena, an environment for web-based multimodal agent tasks. Within an L-infinity norm of $16/256$ on a single image, the captioner attack can make a captioner-augmented GPT-4V agent execute the adversarial goals with a 75% success rate. When we remove the captioner or use GPT-4V to generate its own captions, the CLIP attack can achieve success rates of 21% and 43%, respectively. Experiments on agents based on other VLMs, such as Gemini-1.5, Claude-3, and GPT-4o, show interesting differences in their robustness. Further analysis reveals several key factors contributing to the attack's success, and we also discuss the implications for defenses as well. Project page: https://chenwu.io/attack-agent Code and data: https://github.com/ChenWu98/agent-attack
- Abstract(参考訳): 視覚対応言語モデル(VLM)は、現在、実環境でのアクションを可能にする自律的なマルチモーダルエージェントの構築に使用されている。
本稿では,マルチモーダルエージェントが環境へのアクセスや知識の制限により,攻撃エージェントが以前の攻撃よりも困難であるにもかかわらず,新たな安全リスクを生じさせることを示す。
我々の攻撃は、環境中の1つのトリガ画像上で勾配に基づく摂動を誘導するために、敵対的なテキスト文字列を使用する: 1) キャプタ攻撃は、VLMへの追加入力としてイメージをキャプタに処理するために使用される場合、ホワイトボックスキャプタ攻撃; (2) CLIP攻撃は、プロプライエタリなVLMに転送可能な一連のCLIPモデルを攻撃する。
攻撃を評価するため、Webベースのマルチモーダルエージェントタスクの環境であるVisualWebArenaをベースとした敵タスクのセットであるVisualWebArena-Advをキュレートした。
単一の画像上で16/256$のL無限ノルム内で、キャプタ攻撃はキャプタ増強されたGPT-4Vエージェントを75%の成功率で敵目標を実行することができる。
キャプターを除去したり、独自のキャプションを生成するためにGPT-4Vを使用すると、CLIP攻撃は21%と43%の成功率を達成することができる。
Gemini-1.5、Claude-3、GPT-4oなどの他のVLMをベースとしたエージェントの実験は、その堅牢性に興味深い違いを示している。
さらなる分析により、攻撃の成功に寄与するいくつかの重要な要因が明らかとなり、また、防衛への影響についても議論する。
プロジェクトページ: https://chenwu.io/ attack-agent Code and data: https://github.com/ChenWu98/agent- attack
関連論文リスト
- Derail Yourself: Multi-turn LLM Jailbreak Attack through Self-discovered Clues [88.96201324719205]
本研究では,マルチターンインタラクションにおけるLarge Language Models(LLM)の安全性の脆弱性を明らかにする。
本稿ではアクターネットワーク理論に触発された新しいマルチターン攻撃手法であるActorAttackを紹介する。
論文 参考訳(メタデータ) (2024-10-14T16:41:49Z) - AnyAttack: Towards Large-scale Self-supervised Generation of Targeted Adversarial Examples for Vision-Language Models [41.044385916368455]
VLM(Vision-Language Models)は、画像ベースの敵攻撃に対して脆弱である。
本稿では,ラベル管理なしでVLMのターゲット画像を生成する自己教師型フレームワークであるAnyAttackを提案する。
論文 参考訳(メタデータ) (2024-10-07T09:45:18Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z) - VL-Trojan: Multimodal Instruction Backdoor Attacks against
Autoregressive Visual Language Models [65.23688155159398]
VLM(Autoregressive Visual Language Models)は、マルチモーダルなコンテキストにおいて、驚くべき数ショットの学習機能を示す。
近年,マルチモーダル・インストラクション・チューニングが提案されている。
敵は、指示や画像に埋め込まれたトリガーで有毒なサンプルを注入することで、バックドアを埋め込むことができる。
本稿では,マルチモーダルなバックドア攻撃,すなわちVL-Trojanを提案する。
論文 参考訳(メタデータ) (2024-02-21T14:54:30Z) - Shadowcast: Stealthy Data Poisoning Attacks Against Vision-Language Models [73.37389786808174]
この研究は、Vision-Language Modelsのデータ中毒攻撃に対する感受性を明らかにするための第一歩となる。
そこで我々はShadowcastを紹介した。これは、毒のサンプルが良心的な画像と視覚的に区別できない、ステルスなデータ中毒攻撃である。
そこで我々は,シャドウキャストが50件の毒のサンプルを用いて攻撃者の意図を効果的に達成していることを示す。
論文 参考訳(メタデータ) (2024-02-05T18:55:53Z) - Vision-LLMs Can Fool Themselves with Self-Generated Typographic Attacks [62.34019142949628]
誤読テキストを画像に貼り付けるタイポグラフィーアタックは、CLIPのようなビジョンランゲージモデルの性能を損なうことが知られている。
我々は、LVLMが自身に対する攻撃を発生させる2つの新しい、より効果的なTextitSelf-Generated攻撃を導入する。
ベンチマークにより,自己生成攻撃が重大な脅威となり,LVLM(s)分類性能が最大33%低下することが判明した。
論文 参考訳(メタデータ) (2024-02-01T14:41:20Z) - InstructTA: Instruction-Tuned Targeted Attack for Large Vision-Language Models [13.21813503235793]
大規模視覚言語モデル(LVLM)は、画像理解と応答生成において、その驚くべき能力を示した。
本稿では,被害者LVLMの視覚エンコーダのみを敵が知ることのできる,新規で実用的な攻撃シナリオを定式化する。
本研究では,LVLMに対して高い転送性を有する目標対向攻撃を実現するために,命令調整型ターゲットアタック(dubed textscInstructTA)を提案する。
論文 参考訳(メタデータ) (2023-12-04T13:40:05Z) - How Robust is Google's Bard to Adversarial Image Attacks? [45.92999116520135]
テキストや他のモダリティ(特に視覚)を統合するマルチモーダル大規模言語モデル(MLLM)は、様々なマルチモーダルタスクにおいて前例のない性能を達成している。
しかし、ビジョンモデルの非解決対向ロバスト性問題により、MLLMはより厳しい安全性とセキュリティリスクを負う可能性がある。
商用MLLMの脆弱性をよりよく理解するために,GoogleのBardの対角的堅牢性について検討する。
論文 参考訳(メタデータ) (2023-09-21T03:24:30Z) - Image Hijacks: Adversarial Images can Control Generative Models at Runtime [8.603201325413192]
推論時に視覚言語モデルの振る舞いを制御する画像ハイジャック, 逆画像を検出する。
Prompt Matching法を考案し、任意のユーザ定義テキストプロンプトの動作にマッチしたハイジャックをトレーニングする。
我々は、Behaviour Matchingを使って、4種類の攻撃に対してハイジャックを作らせ、VLMは敵の選択の出力を生成し、コンテキストウィンドウから情報をリークし、安全トレーニングをオーバーライドし、偽の声明を信じるように強制する。
論文 参考訳(メタデータ) (2023-09-01T03:53:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。