論文の概要: How Adversarial Environments Mislead Agentic AI?
- arxiv url: http://arxiv.org/abs/2604.18874v1
- Date: Mon, 20 Apr 2026 21:53:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.516739
- Title: How Adversarial Environments Mislead Agentic AI?
- Title(参考訳): 敵対的環境はエージェントAIをミスリードするか?
- Authors: Zhonghao Zhan, Huichi Zhou, Zhenhao Li, Peiyuan Jing, Krinos Li, Hamed Haddadi,
- Abstract要約: ツール統合エージェントは、外部ツールが実際のアウトプットを基盤とする前提でデプロイされる。しかしながら、この非常に依存度が重要な攻撃面を生み出している。
エージェントは、懐疑主義ではなく、パフォーマンスのために評価される。
我々は、この脆弱性を、敵対者が騙されたエージェントにツール出力を妥協する脅威モデルであるAEI(Adversarial Environmental Injection)として定式化する。
- 参考スコア(独自算出の注目度): 8.386898504061415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tool-integrated agents are deployed on the premise that external tools ground their outputs in reality. Yet this very reliance creates a critical attack surface. Current evaluations benchmark capability in benign settings, asking "can the agent use tools correctly" but never "what if the tools lie". We identify this Trust Gap: agents are evaluated for performance, not for skepticism. We formalize this vulnerability as Adversarial Environmental Injection (AEI), a threat model where adversaries compromise tool outputs to deceive agents. AEI constitutes environmental deception: constructing a "fake world" of poisoned search results and fabricated reference networks around unsuspecting agents. We operationalize this via POTEMKIN, a Model Context Protocol (MCP)-compatible harness for plug-and-play robustness testing. We identify two orthogonal attack surfaces: The Illusion (breadth attacks) poison retrieval to induce epistemic drift toward false beliefs, while The Maze (depth attacks) exploit structural traps to cause policy collapse into infinite loops. Across 11,000+ runs on five frontier agents, we find a stark robustness gap: resistance to one attack often increases vulnerability to the other, demonstrating that epistemic and navigational robustness are distinct capabilities.
- Abstract(参考訳): ツール統合エージェントは、外部ツールが実際のアウトプットを根拠としてデプロイされる。
しかし、この非常に信頼感は、重要な攻撃面を生み出します。
現在の評価では、良質な設定でベンチマーク能力を評価し、"エージェントがツールを正しく使用できるか"と問うが、"ツールが偽装された場合はどうか"は問わない。
エージェントは、懐疑主義ではなく、パフォーマンスのために評価される。
我々は、この脆弱性を、敵対者が騙されたエージェントにツール出力を妥協する脅威モデルであるAEI(Adversarial Environmental Injection)として定式化する。
AEIは、有害な検索結果の「フェイクワールド」を構築することや、疑わしいエージェントを取り巻く参照ネットワークを構築することなど、環境侵害を構成している。
我々は、プラグアンドプレイロバストネステストのためのモデルコンテキストプロトコル(MCP)互換ハーネスであるPOTEMKINを介してこれを運用する。
我々は,2つの直交攻撃面を同定した。Illusion (Breadth attack) 毒の検索により,偽の信念に対する疫学的なドリフトを誘発する一方,Maze (deepth attack) は構造的トラップを利用して,政策崩壊を無限ループに導く。
11,000以上の攻撃が5つのフロンティアエージェント上で実行され、1つの攻撃に対する抵抗は脆弱性を増大させ、疫学的およびナビゲーション的堅牢性が異なる能力であることを示す。
関連論文リスト
- Your Agent is More Brittle Than You Think: Uncovering Indirect Injection Vulnerabilities in Agentic LLMs [32.38053469964495]
システム間インタラクションを含む拡張されたアクションスペースは、深刻なセキュリティ上の問題を引き起こす。
悪意のある命令をサードパーティのコンテンツ内に隠蔽するIPIは、データ流出などの不正なアクションをトリガーする。
9個のLPMバックボーンにまたがる4つの高度なIPI攻撃ベクトルに対する6つの防御戦略を評価した。
論文 参考訳(メタデータ) (2026-04-04T21:27:04Z) - Sleeper Cell: Injecting Latent Malice Temporal Backdoors into Tool-Using LLMs [0.0]
オープンウェイト大規模言語モデル(LLM)はエージェントAIを民主化しているが、微調整されたウェイトは頻繁に共有され、リーダーボードのパフォーマンスを超えた限られた精査で採用されている。
これにより、サードパーティモデルが強力な行動保証なしで組み込まれるリスクが生じる。
有毒なモデルでは、良質なタスクに対して最先端のパフォーマンスを維持し、採用にインセンティブを与えていることを示す。
論文 参考訳(メタデータ) (2026-03-02T22:01:08Z) - CausalArmor: Efficient Indirect Prompt Injection Guardrails via Causal Attribution [49.689452243966315]
ツールコール機能を備えたAIエージェントは、IPI(Indirect Prompt Injection)攻撃の影響を受けやすい。
本稿では,選択防衛フレームワークCausalArmorを提案する。
AgentDojoとDoomArenaの実験は、CausalArmorが攻撃的な防御のセキュリティと一致することを示した。
論文 参考訳(メタデータ) (2026-02-08T11:34:08Z) - MCPTox: A Benchmark for Tool Poisoning Attack on Real-World MCP Servers [12.669529656631937]
MCPToxは,現実的なMCP設定において,ツールポジショニングに対するエージェントの堅牢性を評価する最初のベンチマークである。
MCPToxは、数ショットの学習によって1312の悪意のあるテストケースの包括的なスイートを生成し、潜在的なリスクの10のカテゴリをカバーする。
評価の結果,o1-miniで72.8%の攻撃成功率を達成したツールポイジングの脆弱性が広く報告されている。
論文 参考訳(メタデータ) (2025-08-19T10:12:35Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z) - Malicious Agent Detection for Robust Multi-Agent Collaborative Perception [52.261231738242266]
多エージェント協調(MAC)知覚は、単エージェント認識よりも敵攻撃に対して脆弱である。
MAC知覚に特異的な反応防御であるMADE(Malicious Agent Detection)を提案する。
我々は、ベンチマーク3DデータセットV2X-simとリアルタイムデータセットDAIR-V2Xで包括的な評価を行う。
論文 参考訳(メタデータ) (2023-10-18T11:36:42Z) - Illusory Attacks: Information-Theoretic Detectability Matters in Adversarial Attacks [76.35478518372692]
エプシロン・イリューソリー(epsilon-illusory)は、シーケンシャルな意思決定者に対する敵対的攻撃の新たな形態である。
既存の攻撃と比較して,エプシロン・イリューソリーの自動検出は極めて困難である。
以上の結果から, より優れた異常検知器, 効果的なハードウェアおよびシステムレベルの防御の必要性が示唆された。
論文 参考訳(メタデータ) (2022-07-20T19:49:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。