論文の概要: ATBench: A Diverse and Realistic Agent Trajectory Benchmark for Safety Evaluation and Diagnosis
- arxiv url: http://arxiv.org/abs/2604.02022v2
- Date: Wed, 08 Apr 2026 07:11:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 14:06:04.975951
- Title: ATBench: A Diverse and Realistic Agent Trajectory Benchmark for Safety Evaluation and Diagnosis
- Title(参考訳): ATBench: 安全性評価と診断のための多種多様なエージェント軌道ベンチマーク
- Authors: Yu Li, Haoyu Luo, Yuejin Xie, Yuqian Fu, Zhonghao Yang, Shuai Shao, Qihan Ren, Wanying Qu, Yanwei Fu, Yujiu Yang, Jing Shao, Xia Hu, Dongrui Liu,
- Abstract要約: ATBenchは、エージェント安全性の構造化、多様性、現実的な評価のための軌道レベルのベンチマークである。
リスクソース、障害モード、現実世界の危害の3つの側面に沿ってエージェント的リスクを編成する。
1000個の軌道(安全503個、安全497個)があり、平均9.01ターンと3.95kトークンがあり、2,084個のツールにまたがるプールから1,954個のツールが呼び出されている。
- 参考スコア(独自算出の注目度): 96.92417622318267
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating the safety of LLM-based agents is increasingly important because risks in realistic deployments often emerge over multi-step interactions rather than isolated prompts or final responses. Existing trajectory-level benchmarks remain limited by insufficient interaction diversity, coarse observability of safety failures, and weak long-horizon realism. We introduce ATBench, a trajectory-level benchmark for structured, diverse, and realistic evaluation of agent safety. ATBench organizes agentic risk along three dimensions: risk source, failure mode, and real-world harm. Based on this taxonomy, we construct trajectories with heterogeneous tool pools and a long-context delayed-trigger protocol that captures realistic risk emergence across multiple stages. The benchmark contains 1,000 trajectories (503 safe and 497 unsafe), averaging 9.01 turns and 3.95k tokens, with 1,954 invoked tools drawn from pools spanning 2,084 available tools. Data quality is supported by rule-based and LLM-based filtering plus full human audit. Experiments on frontier LLMs, open-source models, and specialized guard systems show that ATBench is challenging even for strong evaluators, while enabling taxonomy-stratified analysis, cross-benchmark comparison, and diagnosis of long-horizon failure patterns.
- Abstract(参考訳): LLMをベースとしたエージェントの安全性を評価することはますます重要になっている。
既存の軌道レベルのベンチマークは、相互作用の多様性の不足、安全障害の粗い観測可能性、そして弱い長距離リアリズムによって制限されている。
我々は,エージェント安全性の構造化,多様性,現実的な評価のための軌道レベルのベンチマークであるATBenchを紹介する。
ATBenchは、リスクソース、障害モード、現実世界の害という3つの側面に沿ってエージェント的リスクを編成する。
この分類法に基づき、多段階にわたる現実的なリスク発生を捉えた、異種ツールプールと長文遅延トリガープロトコルを用いたトラジェクトリを構築した。
ベンチマークには1000の軌跡(安全503、安全497)があり、平均9.01回、トークン3.95k、利用可能な2,084個のツールにまたがるプールから1,954回起動されたツールが含まれている。
データ品質はルールベースとLLMベースのフィルタリングと完全な人間監査によってサポートされている。
また,フロンティアLSM,オープンソースモデル,特殊ガードシステムの実験から,ATBenchは分類階層分析,クロスベンチマーク比較,長距離故障パターンの診断を可能にしつつ,強力な評価を行う上でも困難であることが示された。
関連論文リスト
- AutoControl Arena: Synthesizing Executable Test Environments for Frontier AI Risk Evaluation [22.833977971686966]
本稿では、フロンティアAIリスク評価のための自動化フレームワークであるAutoControl Arenaを紹介する。
私たちは柔軟性を維持しながら幻覚を緩和します。
この原則は3エージェントフレームワークを通じてインスタンス化され、既存のシミュレータよりも98%以上のエンドツーエンドの成功と60%の人間の好みを達成する。
論文 参考訳(メタデータ) (2026-03-08T02:49:45Z) - GT-HarmBench: Benchmarking AI Safety Risks Through the Lens of Game Theory [8.38197391178077]
ゲーム理論構造にまたがる2,009のハイテイクシナリオのベンチマークであるGT-HarmBenchを紹介する。
ゲーム理論のプロンプトフレーミングと順序付けに対する感度を測定し,失敗を駆動する推論パターンを分析した。
その結果,信頼性のギャップが顕著であり,マルチエージェント環境におけるアライメントを研究するための幅広い標準化されたテストベッドが提供されることがわかった。
論文 参考訳(メタデータ) (2026-02-12T17:29:52Z) - RealSec-bench: A Benchmark for Evaluating Secure Code Generation in Real-World Repositories [58.32028251925354]
LLM(Large Language Models)は、コード生成において顕著な能力を示しているが、セキュアなコードを生成する能力は依然として重要で、未調査の領域である。
我々はRealSec-benchを紹介します。RealSec-benchは、現実世界の高リスクなJavaリポジトリから慎重に構築されたセキュアなコード生成のための新しいベンチマークです。
論文 参考訳(メタデータ) (2026-01-30T08:29:01Z) - Building a Foundational Guardrail for General Agentic Systems via Synthetic Data [76.18834864749606]
LLMエージェントは、計画段階で介入するマルチステップタスクを計画できる。
既存のガードレールは主にポスト・エグゼクティブ(英語版)を運用しており、スケーリングが困難であり、計画レベルで制御可能な監督を行う余地がほとんどない。
我々は、良性軌道を合成し、カテゴリーラベル付きリスクを困難に注入し、自動報酬モデルを介して出力をフィルタリングする制御可能なエンジンであるAuraGenを紹介する。
論文 参考訳(メタデータ) (2025-10-10T18:42:32Z) - SeCodePLT: A Unified Platform for Evaluating the Security of Code GenAI [58.29510889419971]
コード生成大型言語モデル(LLM)のセキュリティリスクと能力を評価するための既存のベンチマークは、いくつかの重要な制限に直面している。
手動で検証し、高品質なシード例から始める、汎用的でスケーラブルなベンチマーク構築フレームワークを導入し、ターゲット突然変異を通じて拡張する。
このフレームワークをPython、C/C++、Javaに適用すると、44のCWEベースのリスクカテゴリと3つのセキュリティ機能にまたがる5.9k以上のサンプルデータセットであるSeCodePLTが構築されます。
論文 参考訳(メタデータ) (2024-10-14T21:17:22Z) - SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [107.82336341926134]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。
それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文 参考訳(メタデータ) (2024-02-07T17:33:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。