論文の概要: AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security
- arxiv url: http://arxiv.org/abs/2601.18491v1
- Date: Mon, 26 Jan 2026 13:45:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.850643
- Title: AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security
- Title(参考訳): AgentDoG:AIエージェントの安全性とセキュリティのための診断ガードレールフレームワーク
- Authors: Dongrui Liu, Qihan Ren, Chen Qian, Shuai Shao, Yuejin Xie, Yu Li, Zhonghao Yang, Haoyu Luo, Peng Wang, Qingyu Liu, Binxin Hu, Ling Tang, Jilin Mei, Dadi Guo, Leitao Yuan, Junyao Yang, Guanxu Chen, Qihao Lin, Yi Yu, Bo Zhang, Jiaxuan Guo, Jie Zhang, Wenqi Shao, Huiqi Deng, Zhiheng Xi, Wenjie Wang, Wenxuan Wang, Wen Shen, Zhikai Chen, Haoyu Xie, Jialing Tao, Juntao Dai, Jiaming Ji, Zhongjie Ba, Linfeng Zhang, Yong Liu, Quanshi Zhang, Lei Zhu, Zhihua Wei, Hui Xue, Chaochao Lu, Jing Shao, Xia Hu,
- Abstract要約: 現在のガードレールモデルは、リスク診断におけるエージェント的リスク認識と透明性を欠いている。
エージェントリスクをソース(場所)、障害モード(方法)、結果(何)で分類する統合された3次元分類法を提案する。
AgentDoG(AgentDoG)のための,エージェント安全性ベンチマーク(ATBench)と診断ガードレールフレームワークを新たに導入する。
- 参考スコア(独自算出の注目度): 126.49733412191416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rise of AI agents introduces complex safety and security challenges arising from autonomous tool use and environmental interactions. Current guardrail models lack agentic risk awareness and transparency in risk diagnosis. To introduce an agentic guardrail that covers complex and numerous risky behaviors, we first propose a unified three-dimensional taxonomy that orthogonally categorizes agentic risks by their source (where), failure mode (how), and consequence (what). Guided by this structured and hierarchical taxonomy, we introduce a new fine-grained agentic safety benchmark (ATBench) and a Diagnostic Guardrail framework for agent safety and security (AgentDoG). AgentDoG provides fine-grained and contextual monitoring across agent trajectories. More Crucially, AgentDoG can diagnose the root causes of unsafe actions and seemingly safe but unreasonable actions, offering provenance and transparency beyond binary labels to facilitate effective agent alignment. AgentDoG variants are available in three sizes (4B, 7B, and 8B parameters) across Qwen and Llama model families. Extensive experimental results demonstrate that AgentDoG achieves state-of-the-art performance in agentic safety moderation in diverse and complex interactive scenarios. All models and datasets are openly released.
- Abstract(参考訳): AIエージェントの台頭は、自律的なツールの使用と環境相互作用に起因する、複雑な安全性とセキュリティ上の課題をもたらす。
現在のガードレールモデルは、リスク診断におけるエージェント的リスク認識と透明性を欠いている。
複雑で多様な危険行動をカバーするエージェントガードレールを導入するために,まず,エージェントのリスクをソース(場所),障害モード(方法),結果(方法)によって直交的に分類する,統合された3次元分類法を提案する。
この構造的・階層的な分類によって導かれた新しいエージェント安全ベンチマーク (ATBench) とエージェント安全性とセキュリティのための診断ガードレールフレームワーク (AgentDoG) を導入する。
AgentDoGはエージェントトラジェクトリをまたいだきめ細かなコンテキスト監視を提供する。
より重要なことは、AgentDoGは安全でない行動の根本原因を診断し、効果的にエージェントアライメントを促進するためにバイナリラベルを超えて証明と透明性を提供する。
AgentDoGの変種は、QwenとLlamaモデルファミリの3つのサイズ(4B、7B、8Bパラメータ)で利用可能である。
エージェントDoGは多種多様かつ複雑な対話シナリオにおけるエージェント安全モデレーションにおいて,最先端の性能を達成することを実証した。
すべてのモデルとデータセットが公開されています。
関連論文リスト
- INFA-Guard: Mitigating Malicious Propagation via Infection-Aware Safeguarding in LLM-Based Multi-Agent Systems [70.37731999972785]
本稿では,感染防止対策の枠組みであるINFA-Guardを提案する。
修復中、INFA-Guardは攻撃者を置き換え、感染した者を修復し、トポロジカルな整合性を維持しながら悪意のある伝播を避ける。
論文 参考訳(メタデータ) (2026-01-21T05:27:08Z) - Toward Trustworthy Agentic AI: A Multimodal Framework for Preventing Prompt Injection Attacks [0.0]
本稿ではエージェントAIシステムのためのクロスエージェントマルチモーダル・プロベナンク・アウェアディフェンス・フレームワークを提案する。
フレームワークには、テキストサニタイザエージェント、ビジュアルサニタイザエージェント、および出力バリデータエージェントが含まれており、いずれも前駆体台帳によって調整されている。
実験の結果,マルチモーダル噴射検出精度は著しく向上し,クロスエージェント信頼リークを最小限に抑えることができた。
論文 参考訳(メタデータ) (2025-12-29T15:54:33Z) - Explainable and Fine-Grained Safeguarding of LLM Multi-Agent Systems via Bi-Level Graph Anomaly Detection [76.91230292971115]
大規模言語モデル (LLM) に基づくマルチエージェントシステム (MAS) は複雑なタスクを解く上で強力な能力を示している。
XG-Guardは、MAS内の悪意のあるエージェントを検出するための、説明可能な、きめ細かい保護フレームワークである。
論文 参考訳(メタデータ) (2025-12-21T13:46:36Z) - Sentinel Agents for Secure and Trustworthy Agentic AI in Multi-Agent Systems [0.42970700836450487]
本稿では,マルチエージェントシステム(MAS)のセキュリティと信頼性向上を目的とした新しいアーキテクチャフレームワークを提案する。
このフレームワークの中心的なコンポーネントは、分散セキュリティ層として機能するSentinel Agentsのネットワークである。
このようなエージェントは、エージェント間のコミュニケーションを監督し、潜在的な脅威を特定し、プライバシーとアクセス制御を強制し、包括的な監査記録を維持することができる。
論文 参考訳(メタデータ) (2025-09-18T13:39:59Z) - Towards Unifying Quantitative Security Benchmarking for Multi Agent Systems [0.0]
AIシステムの進化 自律エージェントが協力し、情報を共有し、プロトコルを開発することでタスクを委譲するマルチエージェントアーキテクチャをますます展開する。
そのようなリスクの1つはカスケードリスクである。あるエージェントの侵入はシステムを通してカスケードし、エージェント間の信頼を利用して他人を妥協させる。
ACI攻撃では、あるエージェントに悪意のあるインプットまたはツールエクスプロイトが注入され、そのアウトプットを信頼するエージェント間でカスケードの妥協とダウンストリーム効果が増幅される。
論文 参考訳(メタデータ) (2025-07-23T13:51:28Z) - Kaleidoscopic Teaming in Multi Agent Simulations [75.47388708240042]
我々は,エージェントが行う複雑な行動,思考プロセス,行動の安全性リスクを評価する上で,既存のレッドチームや安全評価フレームワークは不十分であると主張している。
我々は,新しいコンテキスト内最適化手法を導入し,安全解析のためのより良いシナリオを生成する。
エージェントの安全性を測定するためのフレームワークとともに使用できる適切なメトリクスを提案する。
論文 参考訳(メタデータ) (2025-06-20T23:37:17Z) - Multi-Agent Risks from Advanced AI [90.74347101431474]
先進的なAIのマルチエージェントシステムは、新規で未発見のリスクを生じさせる。
エージェントのインセンティブに基づく3つの重要な障害モードと7つの重要なリスク要因を同定する。
各リスクのいくつかの重要な事例と、それらを緩和するための有望な方向性を強調します。
論文 参考訳(メタデータ) (2025-02-19T23:03:21Z) - AGrail: A Lifelong Agent Guardrail with Effective and Adaptive Safety Detection [47.83354878065321]
我々は,エージェントの安全性を高めるため,生涯のガードレールであるAGrailを提案する。
AGrailは適応型安全チェック生成、効果的な安全チェック最適化、ツールの互換性と柔軟性を備えている。
論文 参考訳(メタデータ) (2025-02-17T05:12:33Z) - SafeAgentBench: A Benchmark for Safe Task Planning of Embodied LLM Agents [58.65256663334316]
我々は,対話型シミュレーション環境におけるLLMエージェントの安全性を考慮したタスク計画のための最初のベンチマークであるSafeAgentBenchを紹介する。
SafeAgentBenchは、(1)10の潜在的な危険と3つのタスクタイプをカバーするために厳格にキュレートされた750のタスクの実行可能な多種多様な高品質データセット、(2)低レベルコントローラを備えた普遍的な実施環境、9つの最先端ベースラインに対して17のハイレベルアクションでマルチエージェント実行をサポートするSafeAgentEnv、(3)実行とセマンティックの両方の観点から信頼性の高い評価方法を含む。
論文 参考訳(メタデータ) (2024-12-17T18:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。