論文の概要: CORE: Full-Path Evaluation of LLM Agents Beyond Final State
- arxiv url: http://arxiv.org/abs/2509.20998v1
- Date: Thu, 25 Sep 2025 10:49:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.850582
- Title: CORE: Full-Path Evaluation of LLM Agents Beyond Final State
- Title(参考訳): CORE: 最終状態を超えるLDMエージェントのフルパス評価
- Authors: Panagiotis Michelakis, Yiannis Hadjiyiannis, Dimitrios Stamoulis,
- Abstract要約: 既存のエージェントベンチマークでは、最終状態のバイナリ判断に対する評価を少なくすることが多い。
本稿では,タスクを有効なツール利用経路の集合として符号化する決定論的有限オートマトンに基づくフレームワークを提案する。
CORE(Path Correctness)、Path Correctness(Path Correctness)、Kendall's tau Composite(Kendall's tau Composite)、Prefix Criticality(Prefix Criticality)、Harmful-Call Rate(Harmful-Call Rate)、Efficency(Efficency)の5つのメトリクススイートを紹介します。
- 参考スコア(独自算出の注目度): 2.0391237204597368
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Evaluating AI agents that solve real-world tasks through function-call sequences remains an open challenge. Existing agentic benchmarks often reduce evaluation to a binary judgment of the final state, overlooking critical aspects such as safety, efficiency, and intermediate correctness. We propose a framework based on deterministic finite automata (DFAs) that encodes tasks as sets of valid tool-use paths, enabling principled assessment of agent behavior in diverse world models. Building on this foundation, we introduce CORE, a suite of five metrics, namely Path Correctness, Path Correctness - Kendall's tau Composite, Prefix Criticality, Harmful-Call Rate, and Efficiency, that quantify alignment with expected execution patterns. Across diverse worlds, our method reveals important performance differences between agents that would otherwise appear equivalent under traditional final-state evaluation schemes.
- Abstract(参考訳): 関数呼び出しシーケンスを通じて現実世界のタスクを解決するAIエージェントを評価することは、依然としてオープンな課題である。
既存のエージェントベンチマークは、安全性、効率性、中間正当性といった重要な側面を見越して、最終状態のバイナリ判断に対する評価を減少させることが多い。
本研究では,決定論的有限オートマトン(DFAs)に基づくフレームワークを提案する。これは,タスクを有効なツール使用経路の集合として符号化し,多種多様な世界モデルにおけるエージェント動作の原理的評価を可能にする。
この基盤の上に構築されたCORE(Path Correctness)、Path Correctness(パスの正確さ)、Path Correctness(パスの正確さ)、Kendall氏のTau Composite(タウコンポジット)、Prefix Criticality(修正クリティカル)、Harmful-Call Rate(ハームフルコールレート)、Efficency(効率性)という5つのメトリクススイートを紹介します。
多様な世界において,従来の最終状態評価方式では同等に思われるエージェント間の重要な性能差を明らかにする。
関連論文リスト
- Automatic Failure Attribution and Critical Step Prediction Method for Multi-Agent Systems Based on Causal Inference [8.823529310904162]
マルチエージェントシステム(MAS)は複雑なタスクの自動化に不可欠であるが、その実践的展開は障害帰属の課題によって妨げられている。
マルチグラニュラリティ因果推論に基づくMASのための最初の失敗帰属フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-10T15:22:00Z) - Auto-Eval Judge: Towards a General Agentic Framework for Task Completion Evaluation [4.08768677009363]
本稿では,タスク領域に依存しないエージェントタスク完了を評価するための,汎用的でモジュール化されたフレームワークを提案する。
GAIAとBigCodeBenchの2つのベンチマークでMagentic-One Actor Agentを評価することで、我々のフレームワークを検証する。
我々の審査員は、人間の評価と密接に一致したタスクの成功を予測し、それぞれ4.76%と10.52%のアライメント精度を達成した。
論文 参考訳(メタデータ) (2025-08-07T15:39:48Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - SEOE: A Scalable and Reliable Semantic Evaluation Framework for Open Domain Event Detection [70.23196257213829]
オープンドメインイベント検出のためのスケーラブルで信頼性の高いセマンティックレベルの評価フレームワークを提案する。
提案フレームワークはまず,現在7つの主要ドメインをカバーする564のイベントタイプを含む,スケーラブルな評価ベンチマークを構築した。
次に,大言語モデル(LLM)を自動評価エージェントとして活用し,意味的類似ラベルのきめ細かい定義を取り入れた意味的F1スコアを計算する。
論文 参考訳(メタデータ) (2025-03-05T09:37:05Z) - Open-set object detection: towards unified problem formulation and benchmarking [2.4374097382908477]
統合VOC-COCO評価と,新しい評価指標の他に,明確な階層的オブジェクト定義を提供するOpenImagesRoadベンチマークの2つのベンチマークを紹介する。
提案したベンチマークで最先端の手法を広範囲に評価する。
この研究は、明確な問題定義を提供し、一貫した評価を保証し、OSOD戦略の有効性に関する新たな結論を導き出す。
論文 参考訳(メタデータ) (2024-11-08T13:40:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。