論文の概要: Auto-Eval Judge: Towards a General Agentic Framework for Task Completion Evaluation
- arxiv url: http://arxiv.org/abs/2508.05508v1
- Date: Thu, 07 Aug 2025 15:39:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.934343
- Title: Auto-Eval Judge: Towards a General Agentic Framework for Task Completion Evaluation
- Title(参考訳): 自動評価:タスク完了評価のための汎用エージェントフレームワークを目指して
- Authors: Roshita Bhonsle, Rishav Dutta, Sneha Vavilapalli, Harsh Seth, Abubakarr Jaye, Yapei Chang, Mukund Rungta, Emmanuel Aboah Boateng, Sadid Hasan, Ehi Nosakhare, Soundar Srinivasan,
- Abstract要約: 本稿では,タスク領域に依存しないエージェントタスク完了を評価するための,汎用的でモジュール化されたフレームワークを提案する。
GAIAとBigCodeBenchの2つのベンチマークでMagentic-One Actor Agentを評価することで、我々のフレームワークを検証する。
我々の審査員は、人間の評価と密接に一致したタスクの成功を予測し、それぞれ4.76%と10.52%のアライメント精度を達成した。
- 参考スコア(独自算出の注目度): 4.08768677009363
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increasing adoption of foundation models as agents across diverse domains necessitates a robust evaluation framework. Current methods, such as LLM-as-a-Judge, focus only on final outputs, overlooking the step-by-step reasoning that drives agentic decision-making. Meanwhile, existing Agent-as-a-Judge systems, where one agent evaluates another's task completion, are typically designed for narrow, domain-specific settings. To address this gap, we propose a generalizable, modular framework for evaluating agent task completion independent of the task domain. The framework emulates human-like evaluation by decomposing tasks into sub-tasks and validating each step using available information, such as the agent's output and reasoning. Each module contributes to a specific aspect of the evaluation process, and their outputs are aggregated to produce a final verdict on task completion. We validate our framework by evaluating the Magentic-One Actor Agent on two benchmarks, GAIA and BigCodeBench. Our Judge Agent predicts task success with closer agreement to human evaluations, achieving 4.76% and 10.52% higher alignment accuracy, respectively, compared to the GPT-4o based LLM-as-a-Judge baseline. This demonstrates the potential of our proposed general-purpose evaluation framework.
- Abstract(参考訳): さまざまなドメインにまたがるエージェントとしてのファンデーションモデルの採用の増加は、堅牢な評価フレームワークを必要とします。
LLM-as-a-Judgeのような現在の手法は、エージェントによる意思決定を駆動するステップバイステップの推論を見越して、最終的なアウトプットのみに焦点を当てている。
一方、あるエージェントが他のエージェントのタスク完了を評価する既存のエージェント・アズ・ア・ジャッジシステムは、通常、狭いドメイン固有の設定のために設計されている。
このギャップに対処するため、タスクドメインに依存しないエージェントタスク完了を評価するための一般化可能なモジュラーフレームワークを提案する。
このフレームワークは、タスクをサブタスクに分解し、エージェントの出力や推論などの利用可能な情報を用いて各ステップを検証することで、人間のような評価をエミュレートする。
各モジュールは評価プロセスの特定の側面に寄与し、そのアウトプットを集約してタスク完了に関する最終的な判断を生成する。
GAIAとBigCodeBenchの2つのベンチマークでMagentic-One Actor Agentを評価することで、我々のフレームワークを検証する。
我々の審査員は、GPT-4oベースのLCM-as-a-Judgeベースラインと比較して、それぞれ4.76%と10.52%のアライメント精度でタスク成功を予測した。
このことは,提案する汎用評価フレームワークの可能性を示している。
関連論文リスト
- Visual Document Understanding and Question Answering: A Multi-Agent Collaboration Framework with Test-Time Scaling [83.78874399606379]
テスト時間スケーリングを備えたマルチエージェント協調フレームワークであるMACTを提案する。
4つの異なる小規模エージェントから構成され、明確に定義された役割と効果的なコラボレーションがある。
一般および数学的タスクの能力を犠牲にすることなく、より小さなパラメータスケールで優れた性能を示す。
論文 参考訳(メタデータ) (2025-08-05T12:52:09Z) - Task Priors: Enhancing Model Evaluation by Considering the Entire Space of Downstream Tasks [13.412573082645096]
このような厳格な評価プロトコルは、AI研究においてサイレントボトルネックを生み出している、と我々は主張する。
このビューでは、すべてのダウンストリームタスクのセットに対してモデルのパフォーマンスを評価することができる。
論文 参考訳(メタデータ) (2025-07-14T02:53:14Z) - PIPA: A Unified Evaluation Protocol for Diagnosing Interactive Planning Agents [12.052972947563424]
既存のベンチマークでは、タスク完了に基づくエージェントのパフォーマンスを、全体的な効果のプロキシとして評価している。
対話型タスク計画エージェントの行動過程を概念化する統合評価プロトコルPIPAを提案する。
分析の結果,エージェントは異なる行動段階において優れており,ユーザ満足度は結果と中間行動の両方によって形成されていることがわかった。
論文 参考訳(メタデータ) (2025-05-02T21:27:10Z) - SEOE: A Scalable and Reliable Semantic Evaluation Framework for Open Domain Event Detection [70.23196257213829]
オープンドメインイベント検出のためのスケーラブルで信頼性の高いセマンティックレベルの評価フレームワークを提案する。
提案フレームワークはまず,現在7つの主要ドメインをカバーする564のイベントタイプを含む,スケーラブルな評価ベンチマークを構築した。
次に,大言語モデル(LLM)を自動評価エージェントとして活用し,意味的類似ラベルのきめ細かい定義を取り入れた意味的F1スコアを計算する。
論文 参考訳(メタデータ) (2025-03-05T09:37:05Z) - OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain [62.89809156574998]
金融分野において全方向自動RAGベンチマークであるOmniEvalを導入する。
我々のベンチマークは多次元評価フレームワークによって特徴づけられる。
実験では、広範囲なテストデータセットを含むOmniEvalの包括性を実証した。
論文 参考訳(メタデータ) (2024-12-17T15:38:42Z) - CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。
CompassJudger-1は、優れた汎用性を示す汎用LLMである。
textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文 参考訳(メタデータ) (2024-10-21T17:56:51Z) - TestAgent: A Framework for Domain-Adaptive Evaluation of LLMs via Dynamic Benchmark Construction and Exploratory Interaction [29.72874725703848]
大規模言語モデル(LLM)は、様々な垂直領域に徐々に展開されている。
現在の評価方法は、実世界の要求に合致しない静的でリソース集約的なデータセットに依存している。
textbfBenchmark+は従来の質問応答ベンチマークを、より柔軟な戦略基準のフォーマットに拡張します。
我々は,これらの概念を実装したエージェントベースの評価フレームワークであるtextbftextscTestAgentを提案する。
論文 参考訳(メタデータ) (2024-10-15T11:20:42Z) - Agent-as-a-Judge: Evaluate Agents with Agents [61.33974108405561]
本稿ではエージェント・アズ・ア・ジャッジ(Agent-as-a-Judge)フレームワークを紹介し,エージェント・システムを用いてエージェント・システムの評価を行う。
これはLLM-as-a-Judgeフレームワークの有機的拡張であり、タスク解決プロセス全体の中間フィードバックを可能にするエージェント的特徴を取り入れている。
55のリアルな自動化AI開発タスクのベンチマークであるDevAIを紹介します。
論文 参考訳(メタデータ) (2024-10-14T17:57:02Z) - AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [74.16170899755281]
本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
AgentBoardは、インクリメンタルな進歩と包括的な評価ツールキットをキャプチャする、きめ細かい進捗率のメトリクスを提供する。
これはLLMエージェントの能力と限界に光を当てるだけでなく、その性能の解釈可能性も最前線に広める。
論文 参考訳(メタデータ) (2024-01-24T01:51:00Z) - Agents meet OKR: An Object and Key Results Driven Agent System with
Hierarchical Self-Collaboration and Self-Evaluation [25.308341461293857]
OKR-Agentは、タスク解決におけるLarge Language Models(LLM)の機能を強化するように設計されている。
我々のフレームワークには、階層オブジェクトとキー結果の生成とマルチレベル評価という、2つの新しいモジュールが含まれています。
論文 参考訳(メタデータ) (2023-11-28T06:16:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。