論文の概要: A Comparative Evaluation of AI Agent Security Guardrails
- arxiv url: http://arxiv.org/abs/2604.24826v1
- Date: Mon, 27 Apr 2026 15:44:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.522861
- Title: A Comparative Evaluation of AI Agent Security Guardrails
- Title(参考訳): AIエージェントガードレールの比較評価
- Authors: Qi Li, Jiu Li, Pingtao Wei, Jianjun Xu, Xueyi Wei, Jiwei Shi, Xuan Zhang, Yanhui Yang, Xiaodong Hui, Peng Xu, Lingquan Zhou,
- Abstract要約: 本稿では,AIエージェントセキュリティシナリオにおけるDKnownAI Guardの比較評価を行い,競合する3つの製品に対してベンチマークを行った。
人間のアノテーションを根拠として,それぞれのガードレールが2つのカテゴリのリスクを検出する能力を評価する。
DKnownAIガードは96.5%のリコール率を獲得し、真の負のレート(TNR)は90.4%と評価されたすべてのガードレールの中で最高の総合的なパフォーマンスを提供する。
- 参考スコア(独自算出の注目度): 12.054307827384415
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This report presents a comparative evaluation of DKnownAI Guard in AI agent security scenarios, benchmarked against three competing products: AWS Bedrock Guardrails, Azure Content Safety, and Lakera Guard. Using human annotation as the ground truth, we assess each guardrail's ability to detect two categories of risks: threats to the agent itself (e.g., instruction override, indirect injection, tool abuse) and requests intended to elicit harmful content (e.g., hate speech, pornography, violence). Evaluation results demonstrate that DKnownAI Guard achieves the highest recall rate at 96.5\% and ranks first in true negative rate (TNR) at 90.4\%, delivering the best overall performance among all evaluated guardrails.
- Abstract(参考訳): この記事では、競合する3つのプロダクト – AWS Bedrock Guardrails、Azure Content Safety、Lakera Guard – に対してベンチマークされた、AIエージェントセキュリティシナリオにおけるDKnownAI Guardの比較評価を示す。
人間のアノテーションを根拠として、エージェントに対する脅威(例えば、命令オーバーライド、間接注射、道具乱用)と有害なコンテンツ(例えば、ヘイトスピーチ、ポルノグラフィー、暴力)を誘発する要求(例えば、ヘイトスピーチ、暴力)の2つのカテゴリを検知するそれぞれのガードレールの能力を評価する。
評価結果から,DKnownAIガードは96.5\%が最も高いリコール率を達成し,真負レート(TNR)を90.4\%にランク付けし,すべての評価ガードレールの中で最高の総合性能を実現した。
関連論文リスト
- Securing AI Agents Against Prompt Injection Attacks [0.0]
本稿では,RAG対応AIエージェントのインジェクションリスク評価のためのベンチマークを提案する。
本フレームワークは,攻撃速度を73.2%から8.7%に削減し,94.3%のベースラインタスク性能を維持した。
論文 参考訳(メタデータ) (2025-11-19T10:00:54Z) - Indirect Prompt Injections: Are Firewalls All You Need, or Stronger Benchmarks? [58.48689960350828]
エージェントインタフェースにおけるシンプルでモジュール的で,モデルに依存しないディフェンスが,高ユーティリティで完全なセキュリティを実現することを示す。
ツール入力ファイアウォール(最小限のファイアウォール)とツール出力ファイアウォール(サニタイザ)の2つのファイアウォールをベースとしたディフェンスを採用している。
論文 参考訳(メタデータ) (2025-10-06T18:09:02Z) - Malice in Agentland: Down the Rabbit Hole of Backdoors in the AI Supply Chain [82.98626829232899]
自分自身のインタラクションからのデータに対する微調整のAIエージェントは、AIサプライチェーン内の重要なセキュリティ脆弱性を導入している。
敵は容易にデータ収集パイプラインに毒を盛り、検出しにくいバックドアを埋め込むことができる。
論文 参考訳(メタデータ) (2025-10-03T12:47:21Z) - ThinkGuard: Deliberative Slow Thinking Leads to Cautious Guardrails [33.96886111900147]
ThinkGuardは、高容量言語モデルから知識を抽出する、批判的な拡張されたガードレールモデルである。
平均的なF1とAUPRCを達成し、全てのベースラインを上回ります。
ラベルのみの微調整モデルを超え、構造化された批評によって分類精度とニュアンス付き安全推論の両方が向上することを確認した。
論文 参考訳(メタデータ) (2025-02-19T06:09:58Z) - GuardAgent: Safeguard LLM Agents by a Guard Agent via Knowledge-Enabled Reasoning [79.07152553060601]
安全ガード要求を満たすか否かを動的に確認し,目標エージェントを保護する最初のガードレールエージェントであるガードアジェントを提案する。
特にGuardAgentは、まず安全ガードの要求を分析してタスクプランを生成し、それからその計画をガードレールコードにマップして実行します。
GuardAgentは、それぞれ98%と83%のガードレール精度を持つ2つのベンチマークにおいて、異なる種類のエージェントに対する違反行為を効果的に抑制することを示した。
論文 参考訳(メタデータ) (2024-06-13T14:49:26Z) - Malicious Agent Detection for Robust Multi-Agent Collaborative Perception [52.261231738242266]
多エージェント協調(MAC)知覚は、単エージェント認識よりも敵攻撃に対して脆弱である。
MAC知覚に特異的な反応防御であるMADE(Malicious Agent Detection)を提案する。
我々は、ベンチマーク3DデータセットV2X-simとリアルタイムデータセットDAIR-V2Xで包括的な評価を行う。
論文 参考訳(メタデータ) (2023-10-18T11:36:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。