論文の概要: AEGIS: No Tool Call Left Unchecked -- A Pre-Execution Firewall and Audit Layer for AI Agents
- arxiv url: http://arxiv.org/abs/2603.12621v1
- Date: Fri, 13 Mar 2026 03:49:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.884736
- Title: AEGIS: No Tool Call Left Unchecked -- A Pre-Execution Firewall and Audit Layer for AI Agents
- Title(参考訳): AIエージェントのための事前実行ファイアウォールと監査層
- Authors: Aojie Yuan, Zhiyuan Su, Yue Zhao,
- Abstract要約: AEGISはAIエージェントのための事前実行ファイアウォールと監査層である。
ツール実行パスに介在し、3段階のパイプラインを適用する。
ハイリスクコールは、人間の承認のために行われ、すべての決定は、未確認の監査証跡に記録される。
- 参考スコア(独自算出の注目度): 4.963079926145645
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: AI agents increasingly act through external tools: they query databases, execute shell commands, read and write files, and send network requests. Yet in most current agent stacks, model-generated tool calls are handed to the execution layer with no framework-agnostic control point in between. Post-execution observability can record these actions, but it cannot stop them before side effects occur. We present AEGIS, a pre-execution firewall and audit layer for AI agents. AEGIS interposes on the tool-execution path and applies a three-stage pipeline: (i) deep string extraction from tool arguments, (ii) content-first risk scanning, and (iii) composable policy validation. High-risk calls can be held for human approval, and all decisions are recorded in a tamper-evident audit trail based on Ed25519 signatures and SHA-256 hash chaining. In the current implementation, AEGIS supports 14 agent frameworks across Python, JavaScript, and Go with lightweight integration. On a curated suite of 48 attackinstances, AEGIS blocks all attacks in the suite before execution; on 500 benign tool calls, it yields a 1.2% false positive rate; and across 1,000 consecutive interceptions, it adds 8.3 ms median latency. The live demo will show end-to-end interception of benign, malicious, and human-escalated tool calls, allowing attendees to observe real-time blocking, approval workflows, and audit-trail generation. These results suggest that pre-execution mediation for AI agents can be practical, low-overhead, and directly deployable.
- Abstract(参考訳): AIエージェントは、データベースのクエリ、シェルコマンドの実行、ファイルの読み書き、ネットワークリクエストの送信といった外部ツールを通じて、ますます活動するようになっている。
しかし、現在のほとんどのエージェントスタックでは、モデル生成ツールコールは、フレームワークに依存しないコントロールポイントのない実行層に渡されます。
実行後の可観測性はこれらのアクションを記録することができるが、副作用が発生する前にそれらを止めることはできない。
我々はAIエージェントのための事前実行ファイアウォールおよび監査層であるAEGISを提示する。
AEGISはツール実行パスを介し、3段階のパイプラインを適用します。
(i)ツール引数からの深い文字列抽出
(二)コンテンツ優先リスクスキャン、及び
三 構成可能な政策検証
ハイリスクコールは人間の承認のために行われ、すべての決定はEd25519シグネチャとSHA-256ハッシュチェインに基づいて、未確認の監査パスに記録される。
現在の実装では、AEGISはPython、JavaScript、Goにまたがる14のエージェントフレームワークと軽量な統合をサポートする。
AEGISは実行前に48件の攻撃をブロックし、500回のツールコールでは1.2%の偽陽性率を示し、1000回の連続インターセプションで8.3msの中央遅延を発生させる。
ライブデモでは、良質で悪意のある、人間によるエスカレートされたツールコールのエンドツーエンドのインターセプションが表示され、参加者はリアルタイムのブロッキング、承認ワークフロー、監査トレイ生成を観察できる。
これらの結果は、AIエージェントの事前実行メディエーションは実用的で、低オーバーヘッドであり、直接デプロイ可能であることを示唆している。
関連論文リスト
- RewardHackingAgents: Benchmarking Evaluation Integrity for LLM ML-Engineering Agents [0.9821874476902969]
LLMエージェントは、単一のスカラーテストメトリクスで成功を判断するエンドツーエンドのMLエンジニアリングタスクをますます実行します。
エージェントは、モデルを改善するのではなく、評価パイプラインを妥協することで、報告されたスコアを増やすことができる。
ワークスペースベースのベンチマークであるRewardHackingAgentsを導入する。
論文 参考訳(メタデータ) (2026-03-11T22:06:44Z) - Agentic Peer-to-Peer Networks: From Content Distribution to Capability and Action Sharing [10.47562113256175]
本稿では,このようなコラボレーションの実現に必要なネットワーク基盤について概説する。
本稿では,接続/ID,意味発見,実行を分離する平面型参照アーキテクチャを提案する。
Tier1は評判信号に依存し、Tier2はフォールバック選択で軽量なカナリアチャレンジ応答を適用し、Tier3は署名されたツールレシートやトラスのようなエビデンスパッケージを必要とします。
論文 参考訳(メタデータ) (2026-03-04T05:58:44Z) - AgentSentry: Mitigating Indirect Prompt Injection in LLM Agents via Temporal Causal Diagnostics and Context Purification [25.817251923574286]
大規模言語モデル(LLM)エージェントのための新しい推論時間検出・緩和フレームワークを提案する。
AgentSentryは、時間的因果的テイクオーバーとしてマルチターンIPIをモデル化する最初の推論時防御である。
我々は, textscAgentDojo ベンチマークにおいて, 4つのタスクスイート, 3つの IPI 攻撃ファミリー, 複数のブラックボックス LLM に対する AgentSentry の評価を行った。
論文 参考訳(メタデータ) (2026-02-26T07:59:10Z) - SkillJect: Automating Stealthy Skill-Based Prompt Injection for Coding Agents with Trace-Driven Closed-Loop Refinement [120.52289344734415]
エージェントスキルに適したステルスプロンプトインジェクションのための自動フレームワークを提案する。
フレームワークは、明示的なステルス制約の下でインジェクションスキルを合成するアタックエージェント、インジェクションされたスキルを使用してタスクを実行するコードエージェント、アクショントレースをログする評価エージェントの3つのエージェントでクローズドループを形成する。
本手法は,現実的な環境下で高い攻撃成功率を達成する。
論文 参考訳(メタデータ) (2026-02-15T16:09:48Z) - BackdoorAgent: A Unified Framework for Backdoor Attacks on LLM-based Agents [58.83028403414688]
大規模言語モデル(LLM)エージェントは、計画、メモリ、ツールの使用を組み合わせた多段階ワークフローを通じてタスクを実行する。
エージェントワークフローの特定のステージに注入されたバックドアトリガーは、複数の中間状態を通して持続し、下流出力に悪影響を及ぼす可能性がある。
LLMエージェントにおけるバックドア脅威を統一したエージェント中心のビューを提供するモジュールおよびステージアウェアフレームワークである textbfBackdoorAgent を提案する。
論文 参考訳(メタデータ) (2026-01-08T03:49:39Z) - DeepAgent: A General Reasoning Agent with Scalable Toolsets [111.6384541877723]
DeepAgentは、自律的な思考、ツール発見、アクション実行を実行するエンドツーエンドのディープ推論エージェントである。
長期にわたる相互作用の課題に対処するために,過去の相互作用を構造化エピソード,動作,ツール記憶に圧縮する自律的メモリ折り畳み機構を導入する。
LLMシミュレートされたAPIを活用し、ツール呼び出しトークンにきめ細かいクレジットを割り当てるツールコールアドバンテージ属性を適用した、エンドツーエンドの強化学習戦略であるToolPOを開発した。
論文 参考訳(メタデータ) (2025-10-24T16:24:01Z) - AgentArmor: Enforcing Program Analysis on Agent Runtime Trace to Defend Against Prompt Injection [14.522205401511727]
大きな言語モデル(LLM)エージェントは、自然言語推論と外部ツールの実行を組み合わせることで、さまざまな問題を解決するための強力な新しいパラダイムを提供する。
本研究では,エージェントランタイムトレースを解析可能なセマンティクスを用いた構造化プログラムとして扱う新しい知見を提案する。
本稿では,エージェントトレースをグラフ中間表現に基づく構造化プログラム依存表現に変換するプログラム解析フレームワークであるAgentArmorを提案する。
論文 参考訳(メタデータ) (2025-08-02T07:59:34Z) - OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。
従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。
ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文 参考訳(メタデータ) (2025-07-08T16:18:54Z) - DRIFT: Dynamic Rule-Based Defense with Injection Isolation for Securing LLM Agents [52.92354372596197]
大規模言語モデル(LLM)は、強力な推論と計画能力のため、エージェントシステムの中心となってきています。
この相互作用は、外部ソースからの悪意のある入力がエージェントの振る舞いを誤解させる可能性がある、インジェクション攻撃のリスクも引き起こす。
本稿では,信頼に値するエージェントシステムのための動的ルールベースの分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-13T05:01:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。