論文の概要: A Unified Framework for the Evaluation of LLM Agentic Capabilities
- arxiv url: http://arxiv.org/abs/2605.27898v1
- Date: Wed, 27 May 2026 03:20:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.711869
- Title: A Unified Framework for the Evaluation of LLM Agentic Capabilities
- Title(参考訳): LLMエージェント能力評価のための統一フレームワーク
- Authors: Pengyu Zhu, Lijun Li, Yaxing Lyu, Qianxin Luo, Jingyi Yang, Yi Liu, Tingfeng Hui, Xinyu Yuan, Li Sun, Sen Su, Jing Shao,
- Abstract要約: LLMエージェント能力の公平な評価のための統一的なフレームワークを提案する。
統合された構成システムによって駆動されるこのフレームワークは、様々なベンチマークを標準化された命令-ツール-環境フォーマットに統合する。
我々は15モデルで400Kロールアウトと5Bトークンに対して大規模な実証分析を行う。
- 参考スコア(独自算出の注目度): 36.43241368835721
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As LLMs are increasingly deployed as agents, reliable assessment of their agentic capabilities has become essential. However, reported benchmark scores often jointly reflect model capability and the implementation choices each benchmark is packaged with, making cross-benchmark results difficult to interpret as clean measurements of the underlying model. In this work, we present a unified framework for the fair evaluation of LLM agentic capabilities. Driven by a unified configuration system, the framework integrates diverse benchmarks into a standardized instruction--tool--environment format, executes agents through a fixed ReAct-style architecture within a controllable sandbox, and provides an optional offline setting that replaces volatile live environments with curated snapshots, so that framework effects and environment effects can be analyzed separately. Building on this, we unify the evaluation methodology under each benchmark's original task-success criteria, while introducing unified metrics for resource consumption and a taxonomy for decision- and execution-level failure attribution. Within this framework, we adapt 7 widely used benchmarks spanning 24 domains across single-agent, multi-agent, and safety-critical scenarios, and conduct a large-scale empirical analysis over 400K rollouts and 5B tokens on 15 models. The results show that scaffold choice and environmental volatility materially shift benchmark outcomes in both directions, allowing our framework to disentangle intrinsic LLM capabilities from framework- and environment-induced artifacts. We further demonstrate its extensibility as a secure testbed for safety-critical domains. Codes and benchmarks at are available at https://github.com/whfeLingYu/A-Unified-Framework-for-the-Evaluation-of-LLM-Agentic-Capabilities, https://huggingface.co/AgentFramework/Unified_Farmework.
- Abstract(参考訳): LLMがエージェントとしてますます展開されるにつれて、そのエージェント能力の信頼性評価が重要になっている。
しかし、レポートされたベンチマークスコアは、しばしばモデル能力を共同で反映し、各ベンチマークの実装選択がパッケージ化されているため、クロスベンチマークの結果を基礎となるモデルのクリーンな測定として解釈することは困難である。
本研究では,LLMエージェント能力の公平な評価のための統一的なフレームワークを提案する。
統一された構成システムによって駆動されるこのフレームワークは、さまざまなベンチマークを標準化された命令-ツール-環境フォーマットに統合し、コントロール可能なサンドボックス内で固定されたReActスタイルのアーキテクチャを介してエージェントを実行し、揮発性ライブ環境をキュレートされたスナップショットで置き換えるオプションのオフライン設定を提供する。
これに基づいて,各ベンチマークの原課題基準に基づいて評価手法を統一し,資源消費の統一指標と意思決定および実行レベルの障害属性の分類を導入した。
このフレームワークでは、シングルエージェント、マルチエージェント、安全クリティカルシナリオにまたがる24のドメインにまたがる7つの広く使用されているベンチマークを適用し、400Kロールアウトと5Bトークンを15モデルで大規模に比較分析します。
その結果,足場選択と環境変動性は両方向のベンチマーク結果を大きくシフトさせることで,本フレームワークは内在的LLM能力をフレームワークと環境に起因したアーティファクトから切り離すことができることがわかった。
さらに、安全クリティカルドメインの安全なテストベッドとしての拡張性を示す。
コードとベンチマークはhttps://github.com/whfeLingYu/A-Unified-Framework-for-the-Evaluation-of-LLM-Agentic-Capabilities, https://huggingface.co/AgentFramework/Unified_Farmeworkで公開されている。
関連論文リスト
- RPA-Check: A Multi-Stage Automated Framework for Evaluating Dynamic LLM-based Role-Playing Agents [4.07447364754644]
本稿では,LLM ベースの RPA の性能を客観的に評価する多段階自動評価フレームワーク RPA-Check を紹介する。
我々は,この枠組みを,いくつかの定量化ローカルモデルを含む法医学的な訓練のための真剣なゲームであるLLM Courtに適用することで検証する。
論文 参考訳(メタデータ) (2026-04-13T16:08:03Z) - DEP: A Decentralized Large Language Model Evaluation Protocol [51.3646001384887]
分散評価プロトコル(Decentralized Evaluation Protocol, DEP)は、分散化されているが統一され、標準化された評価フレームワークである。
ユーザ、LLM、ベンチマークを分離することで、DEPはモジュラー、プラグ・アンド・プレイの評価を可能にする。
我々は,ブレークポイントの再開,同時要求,混雑制御などの機能をサポートするプロトコル互換ツールキットであるDEP Toolkitを開発した。
論文 参考訳(メタデータ) (2026-03-01T16:10:16Z) - AgentNoiseBench: Benchmarking Robustness of Tool-Using LLM Agents Under Noisy Condition [72.24180896265192]
本稿では,騒音環境下でのエージェントモデルのロバスト性を評価するためのフレームワークであるAgentNoiseBenchを紹介する。
まず、実世界のシナリオにおけるバイアスと不確実性の詳細な分析を行う。
次に,環境騒音をユーザノイズとツールノイズの2つの主要なタイプに分類する。
この分析に基づいて,既存のエージェント中心ベンチマークに制御可能なノイズを注入する自動パイプラインを開発した。
論文 参考訳(メタデータ) (2026-02-11T20:33:10Z) - Structured Prompting Enables More Robust Evaluation of Language Models [38.53918044830268]
DSPy+HELMフレームワークを提案する。
構造化されたプロンプトがなければ、HELMはLM性能(平均4%)を過小評価し、性能評価はベンチマークによって異なることがわかった。
これは、構造化されたプロンプトを確立された評価フレームワークに体系的に統合する最初のベンチマーク研究である。
論文 参考訳(メタデータ) (2025-11-25T20:37:59Z) - MSC-Bench: A Rigorous Benchmark for Multi-Server Tool Orchestration [0.0]
MSC-Benchは、LLMエージェントによるマルチホップ、エンドツーエンドのツールオーケストレーションを評価するための大規模なベンチマークである。
これは「等式集合」を通じて基底真理を構築することでギャップに対処し、F1スコアのような客観的なメトリクスを可能にする。
シングルツールオーケストレーションから複雑なクロスサーバ計画、スコープ外要求に対する堅牢性まで、エージェント機能を体系的にテストする。
論文 参考訳(メタデータ) (2025-10-22T09:45:11Z) - MCPEval: Automatic MCP-based Deep Evaluation for AI Agent Models [76.72220653705679]
我々は、エンドツーエンドタスク生成とインテリジェントエージェントの深い評価を自動化するオープンソースのフレームワークであるMCPEvalを紹介する。
MCPEvalはメトリクスを標準化し、ネイティブエージェントツールとシームレスに統合し、評価パイプラインを構築するための手作業を排除する。
実世界の5つのドメインにまたがる実証的な結果から、ニュアンスのある、ドメイン固有のパフォーマンスを明らかにする効果が示された。
論文 参考訳(メタデータ) (2025-07-17T05:46:27Z) - TestAgent: Automatic Benchmarking and Exploratory Interaction for Evaluating LLMs in Vertical Domains [19.492393243160244]
大規模言語モデル(LLM)は、高度に専門化された垂直ドメインにデプロイされることが多い。
既存の垂直領域の評価は、通常、静的な単一ターンデータセットの労働集約的な構築に依存している。
垂直領域における自動ベンチマークと探索動的評価のためのフレームワークであるTestAgentを提案する。
論文 参考訳(メタデータ) (2024-10-15T11:20:42Z) - Benchmark Self-Evolving: A Multi-Agent Framework for Dynamic LLM
Evaluation [51.99752147380505]
本稿では,大規模言語モデル(LLM)を動的に評価するベンチマーク自己進化フレームワークを提案する。
マルチエージェントシステムを用いて、元のインスタンスのコンテキストや質問を操作し、信頼性の高い新しいインスタンスをフレーミングする。
我々のフレームワークは、異なるモデル間の性能の相違を拡大し、様々なタスクで同じモデル内で性能の相違を拡大します。
論文 参考訳(メタデータ) (2024-02-18T03:40:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。