論文の概要: Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents
- arxiv url: http://arxiv.org/abs/2604.06132v1
- Date: Tue, 07 Apr 2026 17:43:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.972469
- Title: Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents
- Title(参考訳): Claw-Eval: 自律エージェントの信頼性評価に向けて
- Authors: Bowen Ye, Rang Li, Qibin Yang, Yuanxin Liu, Linli Yao, Hanglong Lv, Zhihui Xie, Chenxin An, Lei Li, Lingpeng Kong, Qi Liu, Zhifang Sui, Tong Yang,
- Abstract要約: エージェントベンチマークの3つのギャップに対処するエンドツーエンド評価スイートであるClaw-Evalを紹介した。
Claw-Evalは3つのグループにまたがる9つのカテゴリにまたがる300の人間検証タスクで構成されている。
すべてのエージェントアクションは、3つの独立したエビデンスチャネルを通じて記録される。
- 参考スコア(独自算出の注目度): 66.97968363332465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models are increasingly deployed as autonomous agents executing multi-step workflows in real-world software environments. However, existing agent benchmarks suffer from three critical limitations: (1) trajectory-opaque grading that checks only final outputs, (2) underspecified safety and robustness evaluation, and (3) narrow modality coverage and interaction paradigms. We introduce Claw-Eval, an end-to-end evaluation suite addressing all three gaps. It comprises 300 human-verified tasks spanning 9 categories across three groups (general service orchestration, multimodal perception and generation, and multi-turn professional dialogue). Every agent action is recorded through three independent evidence channels (execution traces, audit logs, and environment snapshots), enabling trajectory-aware grading over 2,159 fine-grained rubric items. The scoring protocol evaluates Completion, Safety, and Robustness, reporting Average Score, Pass@k, and Pass^k across three trials to distinguish genuine capability from lucky outcomes. Experiments on 14 frontier models reveal that: (1) trajectory-opaque evaluation is systematically unreliable, missing 44% of safety violations and 13% of robustness failures that our hybrid pipeline catches; (2) controlled error injection primarily degrades consistency rather than peak capability, with Pass^3 dropping up to 24% while Pass@3 remains stable; (3) multimodal performance varies sharply, with most models performing poorer on video than on document or image, and no single model dominating across all modalities. Beyond benchmarking, Claw-Eval highlights actionable directions for agent development, shedding light on what it takes to build agents that are not only capable but reliably deployable.
- Abstract(参考訳): 大規模言語モデルは、現実のソフトウェア環境でマルチステップワークフローを実行する自律エージェントとして、ますます多くデプロイされている。
しかし,既存のエージェントベンチマークでは,(1)最終出力のみをチェックするトラジェクトリ・オプタクグレーディング,(2)不特定安全性とロバスト性評価,(3)細いモダリティカバレッジと相互作用パラダイムの3つの限界に悩まされている。
3つのギャップに対処するエンドツーエンド評価スイートであるClaw-Evalを紹介します。
3つのグループ(一般的なサービスオーケストレーション、マルチモーダルな認識と生成、マルチターンプロの対話)にまたがる9つのカテゴリにまたがる、300の人間検証タスクで構成されています。
すべてのエージェントアクションは、3つの独立したエビデンスチャネル(実行トレース、監査ログ、環境スナップショット)を通じて記録される。
スコアリングプロトコルは、完了、安全性、ロバストネスを評価し、平均スコア、Pass@k、Pass^kを3つのトライアルで報告し、真の能力とラッキーな結果とを区別する。
14のフロンティアモデルに対する実験では,(1)トラジェクティブ・オパク評価は系統的に信頼性が低いこと,(1) 安全違反の44%,(2) ハイブリッドパイプラインがキャッチするロバスト性障害の13%,(2) 制御されたエラーインジェクションはピーク能力よりも一貫性を低下させ,(3) Pass^3は24%まで低下するが,Pass@3は安定している。
ベンチマーク以外にも、Claw-Evalはエージェント開発のための実行可能な方向を強調し、エージェントを構築するのに必要なものだけでなく、確実にデプロイできるものについても光を当てている。
関連論文リスト
- AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using Agents [50.481033105867205]
我々はAgentProcessBenchを紹介した。AgentProcessBenchは、現実的なツール拡張トラジェクトリにおけるステップレベルの有効性を評価するための最初のベンチマークである。
ベンチマークは、1,000の多様な軌跡と8,509の人間ラベル付きステップアノテーションと89.1%のアノテーション間合意で構成されている。
探索をキャプチャする3つのラベリングスキームと、ラベルのあいまいさを減らすためのエラー伝搬ルールを備えている。
論文 参考訳(メタデータ) (2026-03-15T16:13:58Z) - Re-Evaluating EVMBench: Are AI Agents Ready for Smart Contract Security? [10.248746359119625]
EVMbenchは、スマートコントラクトセキュリティに関するAIエージェントのための最初の大規模なベンチマークである。
その成果は、完全に自動化されたAI監査が到達範囲内にあるという期待を後押しした。
これらの発見は、完全に自動化されたAI監査が差し迫っているという物語に挑戦する。
論文 参考訳(メタデータ) (2026-03-11T14:07:16Z) - Towards a Science of AI Agent Reliability [9.570634569436535]
AIエージェントは、重要なタスクを実行するためにますますデプロイされる。
標準ベンチマークにおける精度の上昇は急速な進歩を示唆する一方で、多くのエージェントが実際に失敗し続けている。
エージェントの信頼性を4つの重要な次元(一貫性、堅牢性、予測可能性、安全性)に沿って分解する12のメトリクスを提案する。
論文 参考訳(メタデータ) (2026-02-18T18:05:44Z) - On Randomness in Agentic Evals [6.177270420667714]
エージェントシステムは、エージェントがタスクを解決するために環境と対話するベンチマークで評価される。
ほとんどの論文では、タスク毎にひとつの実行から計算されたpass@1スコアが報告されている。
単一ランパス@1推定値は、どのランが選択されたかによって2.2から6.0ポイント異なる。
論文 参考訳(メタデータ) (2026-02-06T19:49:13Z) - A Benchmark for Evaluating Outcome-Driven Constraint Violations in Autonomous AI Agents [4.851169906977996]
40の異なるシナリオからなる新しいベンチマークを導入する。
各シナリオはマルチステップアクションを必要とするタスクを示し、エージェントのパフォーマンスは特定のキーパフォーマンス指標(KPI)に結び付けられている。
我々は、結果駆動の制約違反を1.3%から71.4%まで観察し、12モデルのうち9モデルが30%から50%の不正調整率を示した。
論文 参考訳(メタデータ) (2025-12-23T21:52:53Z) - Building a Foundational Guardrail for General Agentic Systems via Synthetic Data [76.18834864749606]
LLMエージェントは、計画段階で介入するマルチステップタスクを計画できる。
既存のガードレールは主にポスト・エグゼクティブ(英語版)を運用しており、スケーリングが困難であり、計画レベルで制御可能な監督を行う余地がほとんどない。
我々は、良性軌道を合成し、カテゴリーラベル付きリスクを困難に注入し、自動報酬モデルを介して出力をフィルタリングする制御可能なエンジンであるAuraGenを紹介する。
論文 参考訳(メタデータ) (2025-10-10T18:42:32Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - ReasoningShield: Safety Detection over Reasoning Traces of Large Reasoning Models [20.274878511727945]
ReasoningShieldは、Large Reasoning Models (LRMs)におけるChain-of-Thoughts (CoTs)をモデレートするためのフレームワークである
ReasoningShieldは最新のパフォーマンスを実現し、LlamaGuard-4のようなタスク固有のツールを35.6%、GPT-4oのような汎用商用モデルを15.8%向上させた。
論文 参考訳(メタデータ) (2025-05-22T19:44:41Z) - ASSERT: Automated Safety Scenario Red Teaming for Evaluating the
Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。
このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。
統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文 参考訳(メタデータ) (2023-10-14T17:10:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。