論文の概要: AgentGuardian: Learning Access Control Policies to Govern AI Agent Behavior
- arxiv url: http://arxiv.org/abs/2601.10440v1
- Date: Thu, 15 Jan 2026 14:33:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.16845
- Title: AgentGuardian: Learning Access Control Policies to Govern AI Agent Behavior
- Title(参考訳): AgentGuardian: Govern AIエージェントの動作に対するアクセス制御ポリシの学習
- Authors: Nadya Abaev, Denis Klimov, Gerard Levinov, David Mimran, Yuval Elovici, Asaf Shabtai,
- Abstract要約: AgentGuardianは、コンテキスト対応アクセス制御ポリシーを強制することによって、AIエージェントの操作を統制し、保護する。
正常なエージェント機能を保持しながら、悪意のある入力や誤解を招く入力を効果的に検出する。
- 参考スコア(独自算出の注目度): 20.817336331051752
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Artificial intelligence (AI) agents are increasingly used in a variety of domains to automate tasks, interact with users, and make decisions based on data inputs. Ensuring that AI agents perform only authorized actions and handle inputs appropriately is essential for maintaining system integrity and preventing misuse. In this study, we introduce the AgentGuardian, a novel security framework that governs and protects AI agent operations by enforcing context-aware access-control policies. During a controlled staging phase, the framework monitors execution traces to learn legitimate agent behaviors and input patterns. From this phase, it derives adaptive policies that regulate tool calls made by the agent, guided by both real-time input context and the control flow dependencies of multi-step agent actions. Evaluation across two real-world AI agent applications demonstrates that AgentGuardian effectively detects malicious or misleading inputs while preserving normal agent functionality. Moreover, its control-flow-based governance mechanism mitigates hallucination-driven errors and other orchestration-level malfunctions.
- Abstract(参考訳): 人工知能(AI)エージェントは、タスクの自動化、ユーザとのインタラクション、データ入力に基づく意思決定など、さまざまな領域でますます使用されている。
AIエージェントが認証されたアクションのみを実行し、入力を適切に処理することを保証することは、システムの完全性を維持し、誤用を防ぐために不可欠である。
本研究では、コンテキスト対応アクセス制御ポリシーを施行することにより、AIエージェントの操作を統制し、保護する新しいセキュリティフレームワークであるAgentGuardianを紹介する。
制御されたステージングフェーズでは、フレームワークは実行トレースを監視し、正当なエージェントの動作と入力パターンを学ぶ。
このフェーズから、リアルタイム入力コンテキストとマルチステップエージェントアクションの制御フロー依存性の両方によってガイドされる、エージェントが作成するツールコールを制御する適応ポリシーを導出する。
2つの実世界のAIエージェントアプリケーションに対する評価は、AgentGuardianが正常なエージェント機能を保持しながら、悪意のあるあるいは誤解を招く入力を効果的に検出していることを示している。
さらに、制御フローベースのガバナンスメカニズムは、幻覚駆動型エラーやその他のオーケストレーションレベルの誤動作を軽減します。
関連論文リスト
- Towards Verifiably Safe Tool Use for LLM Agents [53.55621104327779]
大規模言語モデル(LLM)ベースのAIエージェントは、データソース、API、検索エンジン、コードサンドボックス、さらにはその他のエージェントなどのツールへのアクセスを可能にすることで、機能を拡張する。
LLMは意図しないツールインタラクションを起動し、機密データを漏洩したり、クリティカルレコードを上書きしたりするリスクを発生させる。
モデルベースセーフガードのようなリスクを軽減するための現在のアプローチは、エージェントの信頼性を高めるが、システムの安全性を保証することはできない。
論文 参考訳(メタデータ) (2026-01-12T21:31:38Z) - AudAgent: Automated Auditing of Privacy Policy Compliance in AI Agents [3.802907024025868]
AudAgentは、AIエージェントのデータプラクティスをリアルタイムで監視するビジュアルフレームワークである。
AudAgentは、リアルタイムに潜在的なプライバシーポリシー違反を効果的に識別する。
論文 参考訳(メタデータ) (2025-11-03T17:32:08Z) - Adaptive Attacks on Trusted Monitors Subvert AI Control Protocols [80.68060125494645]
プロトコルとモニタモデルを知っている信頼できないモデルによるアダプティブアタックについて検討する。
我々は、攻撃者がモデル出力に公知またはゼロショットプロンプトインジェクションを埋め込む単純な適応攻撃ベクトルをインスタンス化する。
論文 参考訳(メタデータ) (2025-10-10T15:12:44Z) - Secure and Efficient Access Control for Computer-Use Agents via Context Space [11.077973600902853]
CSAgentは、コンピュータ利用エージェントのためのシステムレベルの静的ポリシーベースのアクセス制御フレームワークである。
我々はCSAgentの実装と評価を行い、99.36%以上の攻撃に対して防御に成功し、パフォーマンスオーバーヘッドは6.83%に過ぎなかった。
論文 参考訳(メタデータ) (2025-09-26T12:19:27Z) - BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - SAGA: A Security Architecture for Governing AI Agentic Systems [13.758038956671834]
大規模言語モデル(LLM)ベースのエージェントは、最小限の人間インタラクションでタスクを自律的に相互に対話し、協力し、委譲する傾向にある。
エージェントシステムガバナンスの業界ガイドラインは、ユーザがエージェントの包括的な制御を維持する必要性を強調している。
本稿では,エージェントのライフサイクルをユーザから監視する,エージェントシステムを管理するためのスケーラブルなセキュリティアーキテクチャであるSAGAを提案する。
論文 参考訳(メタデータ) (2025-04-27T23:10:00Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z) - Agent-as-a-Judge: Evaluate Agents with Agents [61.33974108405561]
本稿ではエージェント・アズ・ア・ジャッジ(Agent-as-a-Judge)フレームワークを紹介し,エージェント・システムを用いてエージェント・システムの評価を行う。
これはLLM-as-a-Judgeフレームワークの有機的拡張であり、タスク解決プロセス全体の中間フィードバックを可能にするエージェント的特徴を取り入れている。
55のリアルな自動化AI開発タスクのベンチマークであるDevAIを紹介します。
論文 参考訳(メタデータ) (2024-10-14T17:57:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。