論文の概要: Agent-Fence: Mapping Security Vulnerabilities Across Deep Research Agents
- arxiv url: http://arxiv.org/abs/2602.07652v1
- Date: Sat, 07 Feb 2026 18:27:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.742209
- Title: Agent-Fence: Mapping Security Vulnerabilities Across Deep Research Agents
- Title(参考訳): Agent-Fence: ディープリサーチエージェント間のセキュリティ脆弱性のマッピング
- Authors: Sai Puppala, Ismail Hossain, Md Jahangir Alam, Yoonpyo Lee, Jay Yoo, Tanzim Ahad, Syed Bahauddin Alam, Sajedul Talukder,
- Abstract要約: AgentFence*はアーキテクチャ中心のセキュリティ評価で、計画、メモリ、検索、ツールの使用、デリゲートにまたがる14の信頼境界攻撃クラスを定義します。
基本モデルの固定を保ち、永続的マルチターン相互作用の下で8つのエージェントアーチタイプを評価する。
Denial-of-Wallet (0.62 pm 0.08$), Authorization Confusion (0.54 pm 0.10$), Retrieval Poisoning (0.47 pm 0.09$), Planning Manipulation (0.44 pm 0.11$)。
- 参考スコア(独自算出の注目度): 0.9368753183086048
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models are increasingly deployed as *deep agents* that plan, maintain persistent state, and invoke external tools, shifting safety failures from unsafe text to unsafe *trajectories*. We introduce **AgentFence**, an architecture-centric security evaluation that defines 14 trust-boundary attack classes spanning planning, memory, retrieval, tool use, and delegation, and detects failures via *trace-auditable conversation breaks* (unauthorized or unsafe tool use, wrong-principal actions, state/objective integrity violations, and attack-linked deviations). Holding the base model fixed, we evaluate eight agent archetypes under persistent multi-turn interaction and observe substantial architectural variation in mean security break rate (MSBR), ranging from $0.29 \pm 0.04$ (LangGraph) to $0.51 \pm 0.07$ (AutoGPT). The highest-risk classes are operational: Denial-of-Wallet ($0.62 \pm 0.08$), Authorization Confusion ($0.54 \pm 0.10$), Retrieval Poisoning ($0.47 \pm 0.09$), and Planning Manipulation ($0.44 \pm 0.11$), while prompt-centric classes remain below $0.20$ under standard settings. Breaks are dominated by boundary violations (SIV 31%, WPA 27%, UTI+UTA 24%, ATD 18%), and authorization confusion correlates with objective and tool hijacking ($ρ\approx 0.63$ and $ρ\approx 0.58$). AgentFence reframes agent security around what matters operationally: whether an agent stays within its goal and authority envelope over time.
- Abstract(参考訳): 大規模な言語モデルは、計画し、永続的な状態を保持し、外部ツールを呼び出す*Deep Agent*としてデプロイされ、安全でないテキストから安全でない*trajectories*にシフトする。
AgentFence*はアーキテクチャ中心のセキュリティ評価で、計画、メモリ、検索、ツールの使用、デリゲートにまたがる14の信頼境界攻撃クラスを定義します。
基本モデルを固定し, 永続的マルチターン相互作用下で8つのエージェントアーチタイプを評価し, 平均セキュリティブレークレート(MSBR)において, 0.29 pm 0.04$ (LangGraph) から0.51 pm 0.07$ (AutoGPT) まで, 相当なアーキテクチャ的変動を観測した。
最高リスククラスは、Denial-of-Wallet (0.62 \pm 0.08$), Authorization Confusion (0.54 \pm 0.10$), Retrieval Poisoning (0.47 \pm 0.09$), Planning Manipulation (0.44 \pm 0.11$)である。
違反は境界違反(SIV 31%、WPA 27%、UTI+UTA 24%、ATD 18%)に支配されており、承認の混乱は目的とツールのハイジャック(ρ\approx 0.63$および$ρ\approx 0.58$)と関連している。
AgentFenceはエージェントのセキュリティを、運用上重要なものに再設定する。
関連論文リスト
- StepShield: When, Not Whether to Intervene on Rogue Agents [1.472404880217315]
既存のエージェント安全ベンチマークはバイナリの精度を報告し、死後分析の早期介入を混同している。
違反を検出する最初のベンチマークであるStepShieldを紹介します。
StepShieldは、評価の焦点をいつから移行することによって、より安全で経済的に実行可能なAIエージェントを構築するための、新たな基盤を提供する。
論文 参考訳(メタデータ) (2026-01-29T18:55:46Z) - $α^3$-SecBench: A Large-Scale Evaluation Suite of Security, Resilience, and Trust for LLM-based UAV Agents over 6G Networks [3.099103925863002]
LLMをベースとしたUAVエージェントのセキュリティ意識の自律性を評価するための,初の大規模評価スイートであるSecBenchを,現実的な対人干渉下で導入する。
我々は、175の脅威タイプにまたがる113,475のミッションのコーパスからサンプリングされた何千もの敵意的に強化されたUAVエピソードを使用して、大手産業プロバイダやAI研究所から23の最先端のLSMを評価した。正規化された総合スコアは12.9%から57.1%の範囲で、異常検出とセキュリティに配慮した自律的な意思決定の間に大きなギャップがあることを強調している。
論文 参考訳(メタデータ) (2026-01-26T18:25:07Z) - BackdoorAgent: A Unified Framework for Backdoor Attacks on LLM-based Agents [58.83028403414688]
大規模言語モデル(LLM)エージェントは、計画、メモリ、ツールの使用を組み合わせた多段階ワークフローを通じてタスクを実行する。
エージェントワークフローの特定のステージに注入されたバックドアトリガーは、複数の中間状態を通して持続し、下流出力に悪影響を及ぼす可能性がある。
LLMエージェントにおけるバックドア脅威を統一したエージェント中心のビューを提供するモジュールおよびステージアウェアフレームワークである textbfBackdoorAgent を提案する。
論文 参考訳(メタデータ) (2026-01-08T03:49:39Z) - ReliabilityBench: Evaluating LLM Agent Reliability Under Production-Like Stress Conditions [0.32928123659012326]
ツールを使用するLLMエージェントの既存のベンチマークでは、主に単一実行の成功率を報告し、運用に必要な信頼性特性を見逃している。
エージェントの信頼性を3次元にわたって評価するベンチマークである textbfReliabilityBench を紹介する。
我々は2つのモデル(Gemini 2.0 Flash, GPT-4o)と2つのエージェントアーキテクチャ(ReAct, Reflexion)を1,280回にわたって4つのドメイン(スケジューリング、旅行、カスタマーサポート、eコマース)で評価した。
論文 参考訳(メタデータ) (2026-01-03T13:41:33Z) - Securing the Model Context Protocol: Defending LLMs Against Tool Poisoning and Adversarial Attacks [8.419049623790618]
本研究は,MPP統合システムに対するセマンティックアタックの3つのクラスを分析する。
ディスクリプタの整合性を強制するためのRSAベースのマニフェスト署名、不審なツール定義を検出するためのLLM-on-LLMセマンティックベッティング、実行時に異常なツール動作をブロックする軽量ガードレールである。
提案手法は, モデル微調整や内部修正を伴わずに, 安全でないツール実行率を低減できることを示す。
論文 参考訳(メタデータ) (2025-12-06T20:07:58Z) - LLM-Powered Detection of Price Manipulation in DeFi [12.59175486585742]
分散ファイナンス(DeFi)のスマートコントラクトは数十億ドルを管理し、エクスプロイトの主要なターゲットとなっている。
価格操作の脆弱性は、しばしばフラッシュローンを通じて発生し、壊滅的な攻撃の類である。
本稿では,静的解析とLarge Language Model(LLM)に基づく推論を組み合わせたハイブリッドフレームワークPMDetectorを提案する。
論文 参考訳(メタデータ) (2025-10-24T09:13:30Z) - OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。
従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。
ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文 参考訳(メタデータ) (2025-07-08T16:18:54Z) - BountyBench: Dollar Impact of AI Agent Attackers and Defenders on Real-World Cybersecurity Systems [62.17474934536671]
我々は、現実世界のシステムを進化させる際に、攻撃的かつ防御的なサイバー能力を捕獲する最初の枠組みを紹介する。
脆弱性ライフサイクルを捉えるために、3つのタスクタイプを定義します。検出(新たな脆弱性の検出)、エクスプロイト(特定の脆弱性の探索)、パッチ(特定の脆弱性のパッチ)。
Claude Code,OpenAI Codex CLI with o3-high and o4-mini,カスタムエージェント with o3-high, GPT-4.1, Gemini 2.5 Pro Preview, Claude 3.7 Sonnet Thinking, DeepSeek-R1。
論文 参考訳(メタデータ) (2025-05-21T07:44:52Z) - On the Resilience of LLM-Based Multi-Agent Collaboration with Faulty Agents [58.79302663733703]
大規模言語モデルに基づくマルチエージェントシステムは、専門家エージェントの協力により、様々なタスクにまたがる優れた能力を示している。
不器用なエージェントや悪意のあるエージェントが与える影響 - システム全体のパフォーマンスにおいて、頻繁にタスクでエラーを犯すものは、いまだに過小評価されていない。
本稿では,下流タスクにおける障害要因下での各種システム構造のレジリエンスについて検討する。
論文 参考訳(メタデータ) (2024-08-02T03:25:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。