論文の概要: Time to REFLECT: Can We Trust LLM Judges for Evidence-based Research Agents?
- arxiv url: http://arxiv.org/abs/2605.19196v1
- Date: Mon, 18 May 2026 23:55:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.0326
- Title: Time to REFLECT: Can We Trust LLM Judges for Evidence-based Research Agents?
- Title(参考訳): タイム・トゥ・リフレクト: 証拠ベース研究エージェントのLLM審査員を信頼できるか?
- Authors: Leyao Wang, Yanan He, Peng Chen, Asaf Yehudai, Yixin Liu, Rex Ying, Michal Shmueli-Scheuer, Arman Cohan,
- Abstract要約: 本稿では,エージェント環境におけるきめ細かい故障検出を目的としたメタ評価ベンチマークREFLECTを紹介する。
REFLECTはプロセスレベルの障害モードと結果レベルの障害モードの詳細な分類を定義し、制御および局所的な介入を実行することでインスタンス化する。
私たちの実験では、最高のパフォーマンスモデルでさえ、推論、ツール使用、レポート品質の失敗に対して、全体的なアキュラシーを55%以下に達成しています。
- 参考スコア(独自算出の注目度): 61.49434544687523
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep research agents increasingly automate complex information-seeking tasks, producing evidence-grounded reports via multi-step reasoning, tool use, and synthesis. Their growing role demands scalable, reliable evaluation, positioning LLM-as-judge as a supervision paradigm for assessing factual accuracy, evidence use, and reasoning quality. Yet the reliability of these judges for deep research agents remains poorly understood, posing a critical meta-evaluation problem: before deploying LLM judges to supervise research agents, we must first evaluate the judges themselves. Existing meta-evaluations fall short in two ways: (1) reliance on coarse, subjective human-preference agreement; (2) focus on instruction-following or verifiable tasks, leaving open-ended agent executions unexplored. To address these gaps, we introduce REFLECT (REliable Fine-grained LLM judge Evaluation via Controlled inTervention), a meta-evaluation benchmark targeting fine-grained failure detection in agentic environments. REFLECT defines a detailed taxonomy of process- and outcome-level failure modes, instantiated by performing controlled and localized interventions on quality-screened agent execution traces. This yields verifiable, comprehensive, and fine-grained instances for validating the judge models. Our experiments show that current LLM judges remain unreliable: even the best-performing models achieve overall accuracies below 55% across reasoning, tool-use, and report-quality failures, with especially poor performance on evidence verification. Together, our taxonomy and findings expose systematic judge limitations, reveal tradeoffs in cost and reliability, and offer actionable guidance for building more reliable evaluation pipelines for deep research agents.
- Abstract(参考訳): ディープリサーチエージェントは、複雑な情報検索タスクを自動化し、多段階の推論、ツールの使用、合成を通じてエビデンスに基づくレポートを生成する。
彼らの成長する役割は、スケーラブルで信頼性の高い評価を要求し、事実の正確性、証拠の使用、推論品質を評価するための監督パラダイムとしてLLM-as-judgeを位置づけることである。
しかし、深層調査エージェントに対するこれらの審査員の信頼性は未だによく分かっておらず、重要なメタ評価問題を引き起こしている。
既存のメタ評価は,(1)粗大で主観的な人間関係への依存,(2)指示追従や検証可能なタスクに焦点を合わせ,オープンエンドエージェントの実行を未調査のままにしておくという2つの方法によって不足する。
これらのギャップに対処するために,エージェント環境でのきめ細かい故障検出を目的としたメタ評価ベンチマークであるREFLECT(Reliable Fine-fine LLM judge Evaluation via Controlled inTervention)を導入する。
REFLECTはプロセスレベルの障害モードと結果レベルの障害モードの詳細な分類を定義し、品質チェックされたエージェントの実行トレースに対して、制御および局所的な介入を実行することによってインスタンス化する。
これにより、審査モデルを検証するための検証可能で包括的できめ細かなインスタンスが得られる。
もっとも優れたモデルでさえ、推論、ツール使用、報告品質の失敗に対して、全体的な精度を55%以下に達成しています。
分類学と知見は、体系的な判断の限界を明らかにし、コストと信頼性のトレードオフを明らかにし、より信頼性の高い評価パイプラインを構築するための実用的なガイダンスを提供する。
関連論文リスト
- CompliBench: Benchmarking LLM Judges for Compliance Violation Detection in Dialogue Systems [19.083967725767387]
CompliBenchは、マルチターン対話におけるガイドライン違反の検出とローカライズを行うLLM審査員の能力を評価するために設計された新しいベンチマークである。
ユーザとエージェントのインタラクションをシミュレートするスケーラブルで自動化されたデータ生成パイプラインを開発した。
我々の制御可能な欠陥注入プロセスは、自動的に、違反したガイドラインと正確な会話ターンの正確な接地木ラベルを出力する。
論文 参考訳(メタデータ) (2026-04-14T05:42:41Z) - DREAM: Deep Research Evaluation with Agentic Metrics [21.555357444628044]
本稿では,DREAM(Deep Research Evaluation with Agentic Metrics)を提案する。
DREAM構造評価は、クエリ非依存のメトリクスとツール呼び出しエージェントが生成する適応的なメトリクスを組み合わせた評価プロトコルを用いて行われる。
制御された評価は、DREAMが既存のベンチマークよりも事実や時間的劣化にかなり敏感であることを示している。
論文 参考訳(メタデータ) (2026-02-21T19:14:31Z) - TRACE: Trajectory-Aware Comprehensive Evaluation for Deep Research Agents [51.30998248590416]
Trajectory-Aware Comprehensive Evaluation (TRACE) は、問題解決の軌道全体を評価するフレームワークである。
私たちのコントリビューションには、TRACEフレームワーク、その新しいメトリクス、および制御可能な複雑さを伴うDeepResearch-Benchが含まれています。
論文 参考訳(メタデータ) (2026-02-05T13:28:57Z) - Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。
このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。
我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文 参考訳(メタデータ) (2026-01-21T06:07:43Z) - Verifiability-First Agents: Provable Observability and Lightweight Audit Agents for Controlling Autonomous LLM Systems [0.0]
本稿では,暗号およびシンボリック手法を用いてエージェントアクションの実行時の検証を統合する,検証可能性第一アーキテクチャを提案する。
また、制約付き推論を用いて意図と行動の連続的な検証を行う監査エージェントを組み込む。
当社のアプローチでは,評価の焦点を,誤適応の可能性から,誤適応の迅速かつ確実な検出と再伝達にシフトしています。
論文 参考訳(メタデータ) (2025-12-19T06:12:43Z) - Towards Evaluting Fake Reasoning Bias in Language Models [47.482898076525494]
論理に欠陥がある場合でも、モデルが推論の表面構造を好むことを示す。
我々は、Fake Reasoning Bias(FRB)を体系的に調査するベンチマークTheATERを紹介する。
我々は、主観的DPOと実データの両方で17の高度な大言語モデル(LRM)を評価する。
論文 参考訳(メタデータ) (2025-07-18T09:06:10Z) - CompassJudger-2: Towards Generalist Judge Model via Verifiable Rewards [72.44810390478229]
CompassJudger-2は、タスク駆動のマルチドメインデータキュレーション戦略によって制限を克服する新しいジェネラリストジャッジモデルである。
CompassJudger-2は、複数の判定と報奨ベンチマークで優れた結果を得る。
論文 参考訳(メタデータ) (2025-07-12T01:34:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。