論文の概要: DREAM: Deep Research Evaluation with Agentic Metrics
- arxiv url: http://arxiv.org/abs/2602.18940v1
- Date: Sat, 21 Feb 2026 19:14:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.40646
- Title: DREAM: Deep Research Evaluation with Agentic Metrics
- Title(参考訳): DREAM:エージェントメトリックによるディープリサーチ評価
- Authors: Elad Ben Avraham, Changhao Li, Ron Dorfman, Roy Ganz, Oren Nuriel, Amir Dudai, Aviad Aberdam, Noah Flynn, Elman Mansimov, Adi Kalyanpur, Ron Litman,
- Abstract要約: 本稿では,DREAM(Deep Research Evaluation with Agentic Metrics)を提案する。
DREAM構造評価は、クエリ非依存のメトリクスとツール呼び出しエージェントが生成する適応的なメトリクスを組み合わせた評価プロトコルを用いて行われる。
制御された評価は、DREAMが既存のベンチマークよりも事実や時間的劣化にかなり敏感であることを示している。
- 参考スコア(独自算出の注目度): 21.555357444628044
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Research Agents generate analyst-grade reports, yet evaluating them remains challenging due to the absence of a single ground truth and the multidimensional nature of research quality. Recent benchmarks propose distinct methodologies, yet they suffer from the Mirage of Synthesis, where strong surface-level fluency and citation alignment can obscure underlying factual and reasoning defects. We characterize this gap by introducing a taxonomy across four verticals that exposes a critical capability mismatch: static evaluators inherently lack the tool-use capabilities required to assess temporal validity and factual correctness. To address this, we propose DREAM (Deep Research Evaluation with Agentic Metrics), a framework that instantiates the principle of capability parity by making evaluation itself agentic. DREAM structures assessment through an evaluation protocol combining query-agnostic metrics with adaptive metrics generated by a tool-calling agent, enabling temporally aware coverage, grounded verification, and systematic reasoning probes. Controlled evaluations demonstrate DREAM is significantly more sensitive to factual and temporal decay than existing benchmarks, offering a scalable, reference-free evaluation paradigm.
- Abstract(参考訳): ディープリサーチエージェントは分析グレードのレポートを生成するが、単一の基礎的真実と研究品質の多次元的性質が欠如しているため、評価は依然として困難である。
最近のベンチマークでは、異なる手法が提案されているが、それらは合成のミラージュ(Mirage of Synthesis)に悩まされている。
静的評価には時間的妥当性と事実的正当性を評価するために必要なツール利用能力が本質的に欠如している。
そこで我々は,DREAM(Deep Research Evaluation with Agentic Metrics)を提案する。
DREAM構造は、クエリ非依存のメトリクスとツール呼び出しエージェントが生成する適応的なメトリクスを組み合わせた評価プロトコルにより評価される。
制御された評価は、DREAMが既存のベンチマークよりも事実や時間的劣化に対してはるかに敏感であることを示し、スケーラブルで参照不要な評価パラダイムを提供する。
関連論文リスト
- The Necessity of a Unified Framework for LLM-Based Agent Evaluation [46.631678638677386]
汎用エージェントは基本的な進歩を見てきた。
これらのエージェントを評価すると、静的QAベンチマークと区別する固有の課題が提示される。
エージェント評価の厳格な向上には統一評価フレームワークが不可欠である。
論文 参考訳(メタデータ) (2026-02-03T08:18:37Z) - Proof of Time: A Benchmark for Evaluating Scientific Idea Judgments [12.46263502996029]
PoTは、大規模言語モデルのための半検証可能なベンチマークフレームワークである。
科学的観念判断と下流の信号とを結びつけ、後に観測可能となる。
PoTは将来の科学的思考判断タスクにおけるエージェントのスケーラブルな評価をサポートする。
論文 参考訳(メタデータ) (2026-01-12T14:55:37Z) - Rubric-Conditioned LLM Grading: Alignment, Uncertainty, and Robustness [4.129847064263056]
ルーブリックをベースとした短問合せ学習における大規模言語モデルの性能を体系的に評価する。
二つのタスクに対してアライメントは強いが、粗い粒度が増すにつれて劣化する。
実験により、モデルが注射に抵抗性がある一方で、同義置換に敏感であることが判明した。
論文 参考訳(メタデータ) (2025-12-21T05:22:04Z) - Automatic Reviewers Fail to Detect Faulty Reasoning in Research Papers: A New Counterfactual Evaluation Framework [55.078301794183496]
我々は、高品質なピアレビューを支えるコアレビュースキル、すなわち欠陥のある研究ロジックの検出に注力する。
これは、論文の結果、解釈、クレームの間の内部の一貫性を評価することを含む。
本稿では,このスキルを制御条件下で分離し,テストする,完全自動対物評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-29T08:48:00Z) - Why Do Class-Dependent Evaluation Effects Occur with Time Series Feature Attributions? A Synthetic Data Investigation [5.136283512042341]
「クラス依存評価効果」は、摂動解析が帰属品質を確実に測定するかどうかという疑問を提起する。
複数の帰属法を用いて,摂動に基づく劣化スコアと地中真理に基づく精度評価値を比較した。
最も重要な点として、摂動に基づく実測値と基底的実測値が、クラスごとの帰属品質の矛盾した評価をしばしば得ることが挙げられる。
論文 参考訳(メタデータ) (2025-06-13T13:52:32Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - The simulation of judgment in LLMs [32.57692724251287]
大規模言語モデル(LLM)は、情報フィルタリングから説明と信頼性の判断を通じて知識ギャップの評価と対処に至るまで、評価プロセスに組み込まれている。
これにより、このような評価がどのように構築されるのか、どのような仮定に依存しているのか、その戦略が人間のものとどのように異なるのかを調べる必要が生じる。
我々は、専門家の評価に対して、6つのLCM(NewsGuardとMedia Bias/Fact Check)と、制御された実験を通して収集された人間の判断に対してベンチマークを行った。
論文 参考訳(メタデータ) (2025-02-06T18:52:10Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。