論文の概要: Beyond the Final Answer: Evaluating the Reasoning Trajectories of Tool-Augmented Agents
- arxiv url: http://arxiv.org/abs/2510.02837v1
- Date: Fri, 03 Oct 2025 09:19:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.334026
- Title: Beyond the Final Answer: Evaluating the Reasoning Trajectories of Tool-Augmented Agents
- Title(参考訳): 最終回答を超えて:ツール強化エージェントの推論軌道の評価
- Authors: Wonjoong Kim, Sangwu Park, Yeonjun In, Sein Kim, Dongha Lee, Chanyoung Park,
- Abstract要約: エージェントのパフォーマンスを適切に評価するには、最終回答を超え、問題解決の軌跡も評価する必要がある。
ツール拡張LDMエージェント性能の多次元評価のためのフレームワークであるTRACEを紹介する。
TRACEはこれらの複雑な挙動を,スケーラブルで費用対効果の高い方法で正確に評価する。
- 参考スコア(独自算出の注目度): 22.781523439717223
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although recent tool-augmented benchmarks incorporate complex user requests and diverse tools, the evaluation methods for most of them remain limited to answer matching. However, as the number of steps required to resolve a user request increases, a proper evaluation of an agent's performance must go beyond the final answer to also assess the problem-solving trajectory, including previously ignored aspects such as efficiency, hallucination, and adaptivity. The most straightforward method for evaluating these aspects is to compare an agent's trajectory with the ground-truth trajectory, but this approach is fundamentally limited since annotating all valid ground-truth trajectories is prohibitively expensive. However, a simple LLM-based evaluator struggles to assess trajectories in detail without ground truth. To effectively evaluate the agents in this manner, we introduce TRACE, a framework for the multi-dimensional evaluation of tool-augmented LLM agent performance. By incorporating an evidence bank, which accumulates knowledge gathered from preceding reasoning steps, TRACE enables a multi-faceted analysis and evaluation of an agent's reasoning trajectory effectively. To validate our framework, we develop a new meta-evaluation dataset by augmenting existing benchmarks with diverse and flawed trajectories, each labeled with multi-faceted performance scores. Our results confirm that TRACE accurately evaluates these complex behaviors in a scalable and cost-effective manner, even with small open-source LLMs. Furthermore, we apply our method to evaluate the trajectories that agents produce while solving tool-augmented tasks, presenting previously unreported observations and their corresponding insights.
- Abstract(参考訳): 最近のツール拡張ベンチマークでは複雑なユーザリクエストと多様なツールが組み込まれているが、そのほとんどは回答マッチングに限られている。
しかし、ユーザ要求を解決するために必要なステップの数が増えるにつれて、エージェントのパフォーマンスの適切な評価は最終回答を超え、効率性、幻覚、適応性といったこれまで無視されていた側面を含む問題解決の軌跡も評価する必要がある。
これらの側面を評価する最も簡単な方法は、エージェントの軌道と接地軌道を比較することであるが、すべての有効な接地軌道の注釈付けは違法に高価であるため、基本的に制限されている。
しかし、単純なLCMベースの評価器は、基礎的な真実なしに軌道を詳細に評価するのに苦労している。
このようなエージェントを効果的に評価するために,ツール拡張LDMエージェント性能の多次元評価のためのフレームワークであるTRACEを導入する。
先行する推論ステップから収集された知識を蓄積するエビデンスバンクを組み込むことで、TRACEはエージェントの推論軌道を効果的に多面的に分析し評価することができる。
本フレームワークの有効性を検証するため,既存のベンチマークを多面的性能スコアでラベル付けした多種多様なトラジェクトリで拡張し,新しいメタ評価データセットを開発した。
その結果,TRACE はオープンソース LLM であっても,これらの複雑な動作をスケーラブルで費用対効果の高い方法で正確に評価できることを確認した。
さらに,ツール拡張タスクを解きながらエージェントが生成する軌跡の評価に本手法を適用し,未報告の観測結果とそれに対応する知見を提示する。
関連論文リスト
- JudgeAgent: Knowledge-wise and Dynamic LLM Evaluation with Agent-as-Interviewer [19.09571232466437]
大規模言語モデル(LLM)のための動的評価パラダイムであるエージェント・アズ・インタービューアを提案する。
現在のベンチマークや動的相互作用のパラダイムとは異なり、エージェント・アズ・インタービューアはエージェントを使用して動的マルチターン質問生成においてより広く深い知識を得るために知識ツールを呼び出します。
我々は、知識駆動型合成をエージェントのツールとして活用し、戦略指導として難易度スコアリングを利用する知識ワイドな動的評価フレームワークであるJiceAgentを開発する。
論文 参考訳(メタデータ) (2025-09-02T08:52:16Z) - IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement [50.481380478458945]
反復的なステップレベルプロセスリファインメント(IPR)フレームワークは、エージェントトレーニングを強化するためのステップバイステップのガイダンスを提供する。
3つの複雑なエージェントタスクに関する我々の実験は、我々のフレームワークが様々な強力なベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2024-06-17T03:29:13Z) - AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [74.16170899755281]
本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
AgentBoardは、インクリメンタルな進歩と包括的な評価ツールキットをキャプチャする、きめ細かい進捗率のメトリクスを提供する。
これはLLMエージェントの能力と限界に光を当てるだけでなく、その性能の解釈可能性も最前線に広める。
論文 参考訳(メタデータ) (2024-01-24T01:51:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。