論文の概要: Adversarial Attacks on Multimodal Agents
- arxiv url: http://arxiv.org/abs/2406.12814v1
- Date: Tue, 18 Jun 2024 17:32:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 17:49:20.173454
- Title: Adversarial Attacks on Multimodal Agents
- Title(参考訳): マルチモーダルエージェントの敵攻撃
- Authors: Chen Henry Wu, Jing Yu Koh, Ruslan Salakhutdinov, Daniel Fried, Aditi Raghunathan,
- Abstract要約: 視覚対応言語モデル(VLM)は、現在、実環境でのアクションを可能にする自律的なマルチモーダルエージェントの構築に使用されている。
攻撃エージェントは、環境への限られたアクセスと知識により、以前の攻撃よりも困難であるにもかかわらず、マルチモーダルエージェントが新たな安全リスクを生じさせることを示す。
- 参考スコア(独自算出の注目度): 73.97379283655127
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-enabled language models (VLMs) are now used to build autonomous multimodal agents capable of taking actions in real environments. In this paper, we show that multimodal agents raise new safety risks, even though attacking agents is more challenging than prior attacks due to limited access to and knowledge about the environment. Our attacks use adversarial text strings to guide gradient-based perturbation over one trigger image in the environment: (1) our captioner attack attacks white-box captioners if they are used to process images into captions as additional inputs to the VLM; (2) our CLIP attack attacks a set of CLIP models jointly, which can transfer to proprietary VLMs. To evaluate the attacks, we curated VisualWebArena-Adv, a set of adversarial tasks based on VisualWebArena, an environment for web-based multimodal agent tasks. Within an L-infinity norm of $16/256$ on a single image, the captioner attack can make a captioner-augmented GPT-4V agent execute the adversarial goals with a 75% success rate. When we remove the captioner or use GPT-4V to generate its own captions, the CLIP attack can achieve success rates of 21% and 43%, respectively. Experiments on agents based on other VLMs, such as Gemini-1.5, Claude-3, and GPT-4o, show interesting differences in their robustness. Further analysis reveals several key factors contributing to the attack's success, and we also discuss the implications for defenses as well. Project page: https://chenwu.io/attack-agent Code and data: https://github.com/ChenWu98/agent-attack
- Abstract(参考訳): 視覚対応言語モデル(VLM)は、現在、実環境でのアクションを可能にする自律的なマルチモーダルエージェントの構築に使用されている。
本稿では,マルチモーダルエージェントが環境へのアクセスや知識の制限により,攻撃エージェントが以前の攻撃よりも困難であるにもかかわらず,新たな安全リスクを生じさせることを示す。
我々の攻撃は、環境中の1つのトリガ画像上で勾配に基づく摂動を誘導するために、敵対的なテキスト文字列を使用する: 1) キャプタ攻撃は、VLMへの追加入力としてイメージをキャプタに処理するために使用される場合、ホワイトボックスキャプタ攻撃; (2) CLIP攻撃は、プロプライエタリなVLMに転送可能な一連のCLIPモデルを攻撃する。
攻撃を評価するため、Webベースのマルチモーダルエージェントタスクの環境であるVisualWebArenaをベースとした敵タスクのセットであるVisualWebArena-Advをキュレートした。
単一の画像上で16/256$のL無限ノルム内で、キャプタ攻撃はキャプタ増強されたGPT-4Vエージェントを75%の成功率で敵目標を実行することができる。
キャプターを除去したり、独自のキャプションを生成するためにGPT-4Vを使用すると、CLIP攻撃は21%と43%の成功率を達成することができる。
Gemini-1.5、Claude-3、GPT-4oなどの他のVLMをベースとしたエージェントの実験は、その堅牢性に興味深い違いを示している。
さらなる分析により、攻撃の成功に寄与するいくつかの重要な要因が明らかとなり、また、防衛への影響についても議論する。
プロジェクトページ: https://chenwu.io/ attack-agent Code and data: https://github.com/ChenWu98/agent- attack
関連論文リスト
- Imprompter: Tricking LLM Agents into Improper Tool Use [35.255462653237885]
大規模言語モデル(LLM)エージェントは、生成機械学習とコードインタプリタ、Webブラウジング、メール、より一般的には外部リソースなどのツールを融合した、新興コンピューティングパラダイムである。
我々はエージェントベースのシステムのセキュリティ基盤に貢献し、自動的に計算された難読化された敵攻撃の新しいクラスを探索する。
論文 参考訳(メタデータ) (2024-10-19T01:00:57Z) - Agent-as-a-Judge: Evaluate Agents with Agents [61.33974108405561]
本稿ではエージェント・アズ・ア・ジャッジ(Agent-as-a-Judge)フレームワークを紹介し,エージェント・システムを用いてエージェント・システムの評価を行う。
これはLLM-as-a-Judgeフレームワークの有機的拡張であり、タスク解決プロセス全体の中間フィードバックを可能にするエージェント的特徴を取り入れている。
55のリアルな自動化AI開発タスクのベンチマークであるDevAIを紹介します。
論文 参考訳(メタデータ) (2024-10-14T17:57:02Z) - Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。
本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。
ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文 参考訳(メタデータ) (2024-08-06T01:20:12Z) - On the Resilience of LLM-Based Multi-Agent Collaboration with Faulty Agents [58.79302663733703]
大規模言語モデルに基づくマルチエージェントシステムは、専門家エージェントの協力により、様々なタスクにまたがる優れた能力を示している。
しかし、不器用なエージェントや悪意のあるエージェントがシステム全体のパフォーマンスに与える影響は、まだ解明されていない。
本稿では, 種々のシステム構造の耐震性について考察する。
論文 参考訳(メタデータ) (2024-08-02T03:25:20Z) - AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases [73.04652687616286]
本稿では,RAG とRAG をベースとした LLM エージェントを標的とした最初のバックドア攻撃である AgentPoison を提案する。
従来のバックドア攻撃とは異なり、AgentPoisonは追加のモデルトレーニングや微調整を必要としない。
エージェントごとに、AgentPoisonは平均攻撃成功率を80%以上達成し、良質なパフォーマンスに最小限の影響を与える。
論文 参考訳(メタデータ) (2024-07-17T17:59:47Z) - AgentDojo: A Dynamic Environment to Evaluate Prompt Injection Attacks and Defenses for LLM Agents [27.701301913159067]
我々は、信頼できないデータ上でツールを実行するエージェントの評価フレームワークであるAgentDojoを紹介した。
AgentDojoは静的テストスイートではなく、新しいエージェントタスク、ディフェンス、アダプティブアタックを設計、評価するための環境である。
AgentDojoには97の現実的なタスク、629のセキュリティテストケースと、文献からのさまざまな攻撃および防御パラダイムが組み込まれています。
論文 参考訳(メタデータ) (2024-06-19T08:55:56Z) - Evil Geniuses: Delving into the Safety of LLM-based Agents [35.49857256840015]
大言語モデル(LLM)は、大言語モデル(LLM)で再活性化されている。
本稿では, LLMをベースとしたエージェントの安全性について, エージェント量, 役割定義, 攻撃レベルという3つの観点から検討する。
論文 参考訳(メタデータ) (2023-11-20T15:50:09Z) - Malicious Agent Detection for Robust Multi-Agent Collaborative Perception [52.261231738242266]
多エージェント協調(MAC)知覚は、単エージェント認識よりも敵攻撃に対して脆弱である。
MAC知覚に特異的な反応防御であるMADE(Malicious Agent Detection)を提案する。
我々は、ベンチマーク3DデータセットV2X-simとリアルタイムデータセットDAIR-V2Xで包括的な評価を行う。
論文 参考訳(メタデータ) (2023-10-18T11:36:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。