論文の概要: TRACE: Trajectory-Aware Comprehensive Evaluation for Deep Research Agents
- arxiv url: http://arxiv.org/abs/2602.21230v1
- Date: Thu, 05 Feb 2026 13:28:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 07:21:25.665525
- Title: TRACE: Trajectory-Aware Comprehensive Evaluation for Deep Research Agents
- Title(参考訳): TRACE:ディープリサーチエージェントのための軌道認識包括的評価
- Authors: Yanyu Chen, Jiyue Jiang, Jiahong Liu, Yifei Zhang, Xiao Guo, Irwin King,
- Abstract要約: Trajectory-Aware Comprehensive Evaluation (TRACE) は、問題解決の軌道全体を評価するフレームワークである。
私たちのコントリビューションには、TRACEフレームワーク、その新しいメトリクス、および制御可能な複雑さを伴うDeepResearch-Benchが含まれています。
- 参考スコア(独自算出の注目度): 51.30998248590416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The evaluation of Deep Research Agents is a critical challenge, as conventional outcome-based metrics fail to capture the nuances of their complex reasoning. Current evaluation faces two primary challenges: 1) a reliance on singular metrics like Pass@1, creating a "high-score illusion" that ignores the quality, efficiency, and soundness of the reasoning process; and 2) the failure of static benchmarks to quantify crucial attributes like robustness and latent capability. To address these gaps, we introduce TRACE (Trajectory-Aware Comprehensive Evaluation), a framework that holistically assesses the entire problem-solving trajectory. To counter the "high-score illusion", we propose a Hierarchical Trajectory Utility Function that quantifies process efficiency and cognitive quality, including evidence grounding, alongside accuracy. To measure deeper attributes, TRACE introduces a Scaffolded Capability Assessment protocol, quantifying an agent's latent ability by determining the minimum guidance needed for success. Our contributions include the TRACE framework, its novel metrics, and the accompanying DeepResearch-Bench with controllable complexity. Experiments show TRACE delivers a granular ranking that uncovers critical trade-offs between agent accuracy, efficiency, and robustness entirely missed by singular metrics.
- Abstract(参考訳): 従来の結果に基づくメトリクスは、複雑な推論のニュアンスを捉えないため、Deep Research Agentsの評価は重要な課題である。
現在の評価は2つの大きな課題に直面している。
1) Pass@1のような特異なメトリクスに依存して、推論プロセスの品質、効率、健全性を無視する「ハイスコアイリュージョン」を作り出す。
2) 静的ベンチマークの失敗により、堅牢性や潜在能力といった重要な属性が定量化される。
これらのギャップに対処するために, TRACE (Trajectory-Aware Comprehensive Evaluation) を導入する。
ハイスコアイリュージョン」に対抗するために,プロセス効率と認知的品質を定量化する階層的軌道実用関数を提案する。
より深い属性を測定するため、TRACEはScaffolded Capability Assessmentプロトコルを導入し、成功に必要な最小限のガイダンスを決定することでエージェントの潜伏能力を定量化する。
私たちのコントリビューションには、TRACEフレームワーク、その新しいメトリクス、および制御可能な複雑さを伴うDeepResearch-Benchが含まれています。
実験の結果、TRACEはエージェントの正確性、効率、ロバスト性の間の重要なトレードオフを、特異なメトリクスで完全に見逃すような、きめ細かいランキングを提供することがわかった。
関連論文リスト
- DREAM: Deep Research Evaluation with Agentic Metrics [21.555357444628044]
本稿では,DREAM(Deep Research Evaluation with Agentic Metrics)を提案する。
DREAM構造評価は、クエリ非依存のメトリクスとツール呼び出しエージェントが生成する適応的なメトリクスを組み合わせた評価プロトコルを用いて行われる。
制御された評価は、DREAMが既存のベンチマークよりも事実や時間的劣化にかなり敏感であることを示している。
論文 参考訳(メタデータ) (2026-02-21T19:14:31Z) - Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration [49.9937230730202]
本稿では,新たなアクター・リファイナ・コラボレーション・フレームワークであるSearch-R2を提案する。
提案手法は,生成過程をアクターに分解し,最初の推論軌道を生成する。
本稿では,検索-R2がモデルスケール全体にわたって強力なRAGとRLベースのベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-02-03T15:32:09Z) - Beyond the Final Answer: Evaluating the Reasoning Trajectories of Tool-Augmented Agents [22.781523439717223]
エージェントのパフォーマンスを適切に評価するには、最終回答を超え、問題解決の軌跡も評価する必要がある。
ツール拡張LDMエージェント性能の多次元評価のためのフレームワークであるTRACEを紹介する。
TRACEはこれらの複雑な挙動を,スケーラブルで費用対効果の高い方法で正確に評価する。
論文 参考訳(メタデータ) (2025-10-03T09:19:15Z) - CORE: Full-Path Evaluation of LLM Agents Beyond Final State [2.0391237204597368]
既存のエージェントベンチマークでは、最終状態のバイナリ判断に対する評価を少なくすることが多い。
本稿では,タスクを有効なツール利用経路の集合として符号化する決定論的有限オートマトンに基づくフレームワークを提案する。
CORE(Path Correctness)、Path Correctness(Path Correctness)、Kendall's tau Composite(Kendall's tau Composite)、Prefix Criticality(Prefix Criticality)、Harmful-Call Rate(Harmful-Call Rate)、Efficency(Efficency)の5つのメトリクススイートを紹介します。
論文 参考訳(メタデータ) (2025-09-25T10:49:35Z) - Automatic Failure Attribution and Critical Step Prediction Method for Multi-Agent Systems Based on Causal Inference [8.823529310904162]
マルチエージェントシステム(MAS)は複雑なタスクの自動化に不可欠であるが、その実践的展開は障害帰属の課題によって妨げられている。
マルチグラニュラリティ因果推論に基づくMASのための最初の失敗帰属フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-10T15:22:00Z) - Personality as a Probe for LLM Evaluation: Method Trade-offs and Downstream Effects [0.6087817758152709]
本稿では,ビッグファイブ特性を用いたパーソナリティコントロールの体系的研究について述べる。
トラトレベルの分析では、オープン性はICLに最も耐性のある、独特な挑戦であり、同意性を示している。
Gemma-2-2B-ITとLLaMA-3-8B-Instructの実験により明らかなトレードオフが明らかになった。
論文 参考訳(メタデータ) (2025-09-05T04:19:15Z) - Towards Evaluting Fake Reasoning Bias in Language Models [47.482898076525494]
論理に欠陥がある場合でも、モデルが推論の表面構造を好むことを示す。
我々は、Fake Reasoning Bias(FRB)を体系的に調査するベンチマークTheATERを紹介する。
我々は、主観的DPOと実データの両方で17の高度な大言語モデル(LRM)を評価する。
論文 参考訳(メタデータ) (2025-07-18T09:06:10Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - Ladder-of-Thought: Using Knowledge as Steps to Elevate Stance Detection [73.31406286956535]
姿勢検出タスクにLadder-of-Thought(LoT)を導入する。
LoTは、小さなLMに高品質な外部知識を同化させ、生成した中間的論理を精査するように指示する。
実験では, 姿勢検出タスクにおけるCoTのGPT-3.5よりも16%改善し, 10%向上した。
論文 参考訳(メタデータ) (2023-08-31T14:31:48Z) - Goodhart's Law Applies to NLP's Explanation Benchmarks [57.26445915212884]
ERASER(Comprehensiveness and sufficiency)メトリクスとEVAL-X(EVAL-X)メトリクスの2つのセットを批判的に検討する。
実験結果の予測や説明を変えることなく,モデル全体の包括性と充足率を劇的に向上させることができることを示す。
我々の結果は、現在のメトリクスが説明可能性の研究をガイドする能力に疑問を呈し、これらのメトリクスが正確に捉えるものを再評価する必要性を強調します。
論文 参考訳(メタデータ) (2023-08-28T03:03:03Z) - WSSOD: A New Pipeline for Weakly- and Semi-Supervised Object Detection [75.80075054706079]
弱機能および半教師付きオブジェクト検出フレームワーク(WSSOD)を提案する。
エージェント検出器は、まず関節データセット上でトレーニングされ、弱注釈画像上で擬似境界ボックスを予測するために使用される。
提案フレームワークはPASCAL-VOC と MSCOCO のベンチマークで顕著な性能を示し,完全教師付き環境で得られたものと同等の性能を達成している。
論文 参考訳(メタデータ) (2021-05-21T11:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。