論文の概要: Bypassing AI Control Protocols via Agent-as-a-Proxy Attacks
- arxiv url: http://arxiv.org/abs/2602.05066v1
- Date: Wed, 04 Feb 2026 21:38:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.629586
- Title: Bypassing AI Control Protocols via Agent-as-a-Proxy Attacks
- Title(参考訳): Agent-as-a-Proxy攻撃によるAI制御プロトコルのバイパス
- Authors: Jafar Isbarov, Murat Kantarcioglu,
- Abstract要約: 現在の防御は、エージェントのChain-of-Thought(CoT)とツール使用アクションを共同で評価し、ユーザの意図との整合性を保証する監視プロトコルに依存している。
これらの監視ベースの防御は、新しいエージェント・アズ・ア・プロキシ・ア・プロキシ・アタックによってバイパス可能であることを実証する。
以上の結果から,現在の監視型エージェント防御は,モデルスケールによらず根本的に脆弱であることが示唆された。
- 参考スコア(独自算出の注目度): 12.356708678431183
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As AI agents automate critical workloads, they remain vulnerable to indirect prompt injection (IPI) attacks. Current defenses rely on monitoring protocols that jointly evaluate an agent's Chain-of-Thought (CoT) and tool-use actions to ensure alignment with user intent. We demonstrate that these monitoring-based defenses can be bypassed via a novel Agent-as-a-Proxy attack, where prompt injection attacks treat the agent as a delivery mechanism, bypassing both agent and monitor simultaneously. While prior work on scalable oversight has focused on whether small monitors can supervise large agents, we show that even frontier-scale monitors are vulnerable. Large-scale monitoring models like Qwen2.5-72B can be bypassed by agents with similar capabilities, such as GPT-4o mini and Llama-3.1-70B. On the AgentDojo benchmark, we achieve a high attack success rate against AlignmentCheck and Extract-and-Evaluate monitors under diverse monitoring LLMs. Our findings suggest current monitoring-based agentic defenses are fundamentally fragile regardless of model scale.
- Abstract(参考訳): AIエージェントは重要なワークロードを自動化するため、間接的プロンプトインジェクション(IPI)攻撃に対して脆弱である。
現在の防御は、エージェントのChain-of-Thought(CoT)とツール使用アクションを共同で評価し、ユーザの意図との整合性を保証する監視プロトコルに依存している。
エージェント・アズ・ア・プロキシ攻撃(Agen-as-a-Proxy attack)により、エージェントをデリバリー機構として処理し、エージェントをバイパスし、同時に監視する。
これまでは、小さなモニターが大きなエージェントを監督できるかどうかに重点を置いてきたが、フロンティアスケールのモニターでさえも脆弱であることを示す。
Qwen2.5-72Bのような大規模監視モデルは、GPT-4o miniやLlama-3.1-70Bのような類似の能力を持つエージェントによってバイパスされる。
AgentDojoのベンチマークでは、多様なモニタリング LLM の下でAlignmentCheck と Extract-and-Evaluate モニタに対して高い攻撃成功率を達成する。
以上の結果から,現在の監視型エージェント防御は,モデルスケールによらず根本的に脆弱であることが示唆された。
関連論文リスト
- Adaptive Attacks on Trusted Monitors Subvert AI Control Protocols [80.68060125494645]
プロトコルとモニタモデルを知っている信頼できないモデルによるアダプティブアタックについて検討する。
我々は、攻撃者がモデル出力に公知またはゼロショットプロンプトインジェクションを埋め込む単純な適応攻撃ベクトルをインスタンス化する。
論文 参考訳(メタデータ) (2025-10-10T15:12:44Z) - Sentinel Agents for Secure and Trustworthy Agentic AI in Multi-Agent Systems [0.42970700836450487]
本稿では,マルチエージェントシステム(MAS)のセキュリティと信頼性向上を目的とした新しいアーキテクチャフレームワークを提案する。
このフレームワークの中心的なコンポーネントは、分散セキュリティ層として機能するSentinel Agentsのネットワークである。
このようなエージェントは、エージェント間のコミュニケーションを監督し、潜在的な脅威を特定し、プライバシーとアクセス制御を強制し、包括的な監査記録を維持することができる。
論文 参考訳(メタデータ) (2025-09-18T13:39:59Z) - Benchmarking the Robustness of Agentic Systems to Adversarially-Induced Harms [31.01865239234458]
本稿では,エージェントから有害な作用を誘発する攻撃に対するエージェントシステムの堅牢性を評価する。
本稿では,エージェントシステムに対する害の新たな分類法と,新たなベンチマークであるBAD-ACTSを提案する。
BAD-ACTSは、異なるアプリケーション環境におけるエージェントシステムの4つの実装と、有害なアクションの188の高品質な例のデータセットで構成されている。
論文 参考訳(メタデータ) (2025-08-22T15:53:22Z) - BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - MELON: Provable Defense Against Indirect Prompt Injection Attacks in AI Agents [60.30753230776882]
LLMエージェントは間接的プロンプトインジェクション(IPI)攻撃に対して脆弱であり、ツール検索情報に埋め込まれた悪意のあるタスクはエージェントをリダイレクトして不正なアクションを取ることができる。
マスク機能によって修正されたマスク付きユーザでエージェントの軌道を再実行することで攻撃を検知する新しいIPIディフェンスであるMELONを提案する。
論文 参考訳(メタデータ) (2025-02-07T18:57:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。