論文の概要: Dissecting Adversarial Robustness of Multimodal LM Agents
- arxiv url: http://arxiv.org/abs/2406.12814v2
- Date: Mon, 16 Dec 2024 00:21:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:53:28.659724
- Title: Dissecting Adversarial Robustness of Multimodal LM Agents
- Title(参考訳): マルチモーダルLM剤の分散対向ロバスト性
- Authors: Chen Henry Wu, Rishi Shah, Jing Yu Koh, Ruslan Salakhutdinov, Daniel Fried, Aditi Raghunathan,
- Abstract要約: 我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価関数を手動で作成する。
ブラックボックスフロンティア LLM を使用する最新のエージェントのレンジを切断できることが分かりました。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
- 参考スコア(独自算出の注目度): 70.2077308846307
- License:
- Abstract: As language models (LMs) are used to build autonomous agents in real environments, ensuring their adversarial robustness becomes a critical challenge. Unlike chatbots, agents are compound systems with multiple components, which existing LM safety evaluations do not adequately address. To bridge this gap, we manually create 200 targeted adversarial tasks and evaluation functions in a realistic threat model on top of VisualWebArena, a real environment for web-based agents. In order to systematically examine the robustness of various multimodal we agents, we propose the Agent Robustness Evaluation (ARE) framework. ARE views the agent as a graph showing the flow of intermediate outputs between components and decomposes robustness as the flow of adversarial information on the graph. First, we find that we can successfully break a range of the latest agents that use black-box frontier LLMs, including those that perform reflection and tree-search. With imperceptible perturbations to a single product image (less than 5% of total web page pixels), an attacker can hijack these agents to execute targeted adversarial goals with success rates up to 67%. We also use ARE to rigorously evaluate how the robustness changes as new components are added. We find that new components that typically improve benign performance can open up new vulnerabilities and harm robustness. An attacker can compromise the evaluator used by the reflexion agent and the value function of the tree search agent, which increases the attack success relatively by 15% and 20%. Our data and code for attacks, defenses, and evaluation are available at https://github.com/ChenWu98/agent-attack
- Abstract(参考訳): 言語モデル(LM)は、現実の環境で自律的なエージェントを構築するために使用されるため、敵の堅牢性を保証することが重要な課題となる。
チャットボットとは異なり、エージェントは複数のコンポーネントを持つ複合システムであり、既存のLM安全性評価は適切に対応していない。
このギャップを埋めるため,Web ベースエージェントの現実環境である VisualWebArena 上に,現実的な脅威モデルを用いて,200 個の敵タスクと評価関数を手動で作成する。
各種マルチモーダル雑草のロバスト性を系統的に検討するため, エージェントロバストネス評価(ARE)フレームワークを提案する。
AREは、エージェントをコンポーネント間の中間出力の流れを示すグラフと見なし、グラフ上の敵情報のフローとしてロバスト性を分解する。
まず、私たちはブラックボックスフロンティアのLSMを使った最新のエージェントを、反射や木探索を行うエージェントを含め、うまく破ることができることに気付きました。
単一の製品イメージに対する知覚できない摂動(全Webページピクセルの5%未満)によって、攻撃者はこれらのエージェントをハイジャックして、ターゲットとする敵の目標を最大67%の成功率で実行することができる。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
通常、良質なパフォーマンスを改善する新しいコンポーネントは、新たな脆弱性を開き、堅牢性を損なう可能性があることに気付きました。
攻撃者は、反射エージェントが使用する評価器と木探索エージェントの値関数を妥協し、攻撃成功率を比較的15%から20%向上させることができる。
攻撃、防御、評価のためのデータとコードはhttps://github.com/ChenWu98/agent- attackで利用可能です。
関連論文リスト
- Imprompter: Tricking LLM Agents into Improper Tool Use [35.255462653237885]
大規模言語モデル(LLM)エージェントは、生成機械学習とコードインタプリタ、Webブラウジング、メール、より一般的には外部リソースなどのツールを融合した、新興コンピューティングパラダイムである。
我々はエージェントベースのシステムのセキュリティ基盤に貢献し、自動的に計算された難読化された敵攻撃の新しいクラスを探索する。
論文 参考訳(メタデータ) (2024-10-19T01:00:57Z) - Agent-as-a-Judge: Evaluate Agents with Agents [61.33974108405561]
本稿ではエージェント・アズ・ア・ジャッジ(Agent-as-a-Judge)フレームワークを紹介し,エージェント・システムを用いてエージェント・システムの評価を行う。
これはLLM-as-a-Judgeフレームワークの有機的拡張であり、タスク解決プロセス全体の中間フィードバックを可能にするエージェント的特徴を取り入れている。
55のリアルな自動化AI開発タスクのベンチマークであるDevAIを紹介します。
論文 参考訳(メタデータ) (2024-10-14T17:57:02Z) - Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。
本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。
ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文 参考訳(メタデータ) (2024-08-06T01:20:12Z) - On the Resilience of LLM-Based Multi-Agent Collaboration with Faulty Agents [58.79302663733703]
大規模言語モデルに基づくマルチエージェントシステムは、専門家エージェントの協力により、様々なタスクにまたがる優れた能力を示している。
しかし、不器用なエージェントや悪意のあるエージェントがシステム全体のパフォーマンスに与える影響は、まだ解明されていない。
本稿では, 種々のシステム構造の耐震性について考察する。
論文 参考訳(メタデータ) (2024-08-02T03:25:20Z) - AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases [73.04652687616286]
本稿では,RAG とRAG をベースとした LLM エージェントを標的とした最初のバックドア攻撃である AgentPoison を提案する。
従来のバックドア攻撃とは異なり、AgentPoisonは追加のモデルトレーニングや微調整を必要としない。
エージェントごとに、AgentPoisonは平均攻撃成功率を80%以上達成し、良質なパフォーマンスに最小限の影響を与える。
論文 参考訳(メタデータ) (2024-07-17T17:59:47Z) - AgentDojo: A Dynamic Environment to Evaluate Prompt Injection Attacks and Defenses for LLM Agents [27.701301913159067]
我々は、信頼できないデータ上でツールを実行するエージェントの評価フレームワークであるAgentDojoを紹介した。
AgentDojoは静的テストスイートではなく、新しいエージェントタスク、ディフェンス、アダプティブアタックを設計、評価するための環境である。
AgentDojoには97の現実的なタスク、629のセキュリティテストケースと、文献からのさまざまな攻撃および防御パラダイムが組み込まれています。
論文 参考訳(メタデータ) (2024-06-19T08:55:56Z) - Evil Geniuses: Delving into the Safety of LLM-based Agents [35.49857256840015]
大言語モデル(LLM)は、大言語モデル(LLM)で再活性化されている。
本稿では, LLMをベースとしたエージェントの安全性について, エージェント量, 役割定義, 攻撃レベルという3つの観点から検討する。
論文 参考訳(メタデータ) (2023-11-20T15:50:09Z) - Malicious Agent Detection for Robust Multi-Agent Collaborative Perception [52.261231738242266]
多エージェント協調(MAC)知覚は、単エージェント認識よりも敵攻撃に対して脆弱である。
MAC知覚に特異的な反応防御であるMADE(Malicious Agent Detection)を提案する。
我々は、ベンチマーク3DデータセットV2X-simとリアルタイムデータセットDAIR-V2Xで包括的な評価を行う。
論文 参考訳(メタデータ) (2023-10-18T11:36:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。