論文の概要: DEER: A Comprehensive and Reliable Benchmark for Deep-Research Expert Reports
- arxiv url: http://arxiv.org/abs/2512.17776v1
- Date: Fri, 19 Dec 2025 16:46:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.496418
- Title: DEER: A Comprehensive and Reliable Benchmark for Deep-Research Expert Reports
- Title(参考訳): DEER:Deep-Researchのエキスパートレポートの総合的で信頼性の高いベンチマーク
- Authors: Janghoon Han, Heegyu Kim, Changho Lee, Dahm Lee, Min Hyung Park, Hosung Song, Stanley Jungkyu Choi, Moontae Lee, Honglak Lee,
- Abstract要約: ディープリサーチシステムは、多段階の推論とエビデンスベースの合成を通じて専門家レベルのレポートを生成することができる。
既存のベンチマークは、エキスパートレポートの体系的な基準を欠いていることが多い。
専門家レベルのディープリサーチレポートを評価するためのベンチマークであるDEERを紹介する。
- 参考スコア(独自算出の注目度): 49.217247659479476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) advance, deep research systems can generate expert-level reports via multi-step reasoning and evidence-based synthesis, but evaluating such reports remains challenging. Existing benchmarks often lack systematic criteria for expert reporting, evaluations that rely heavily on LLM judges can fail to capture issues that require expert judgment, and source verification typically covers only a limited subset of explicitly cited statements rather than report-wide factual reliability. We introduce DEER, a benchmark for evaluating expert-level deep research reports. DEER comprises 50 report-writing tasks spanning 13 domains and an expert-grounded evaluation taxonomy (7 dimensions, 25 sub-dimension) operationalized into 130 fine-grained rubric items. DEER further provides task-specific expert guidance to help LLM judges assess expert-level report quality more consistently. Complementing rubric-based assessment, we propose a document-level fact-checking architecture that extracts and verifies all claims across the entire report, including both cited and uncited ones, and quantifies external-evidence quality. DEER correlates closely with human expert judgments and yields interpretable diagnostics of system strengths and weaknesses.
- Abstract(参考訳): 大規模言語モデル(LLM)が進むにつれて、多段階の推論とエビデンスに基づく合成によって専門家レベルのレポートを生成することができるが、そのようなレポートを評価することは依然として困難である。
既存のベンチマークは、専門家の報告の体系的な基準を欠いていることが多く、LCMの判断に大きく依存する評価は、専門家の判断を必要とする問題を捉えるのに失敗することがある。
専門家レベルのディープリサーチレポートを評価するためのベンチマークであるDEERを紹介する。
DEERは、13のドメインにまたがる50のレポート作成タスクと、130のきめ細かいルーリックアイテムに操作された専門家による評価分類(7次元、25のサブディメンジョン)から構成される。
DEERはさらに、専門家レベルのレポート品質をより一貫して評価するLLMの判断を支援するために、タスク固有の専門家ガイダンスを提供する。
本稿では,ルーリックに基づく評価を補完する文書レベルのファクトチェックアーキテクチャを提案する。このアーキテクチャは,引用と暗黙の両方を含むすべてのクレームを抽出し,検証し,外部証拠の品質を定量化する。
DEERは人間の専門家の判断と密接に相関し、システムの強度と弱点の解釈可能な診断を行う。
関連論文リスト
- How Far Are We from Genuinely Useful Deep Research Agents? [48.596990593729]
Deep Research Agents (DRA) は、反復的な情報検索と合成によってアナリストレベルのレポートを自動的に生成することを目的としている。
レポート合成の現在のベンチマークは、タスクの複雑さと主観的なメトリクスに悩まされている。
我々は,100個の人為的な研究タスクからなる改良されたベンチマークであるFINDER(FinDER)について述べる。
論文 参考訳(メタデータ) (2025-12-01T17:58:59Z) - LiveResearchBench: A Live Benchmark for User-Centric Deep Research in the Wild [86.6586720134927]
LiveResearchBenchは、日々の生活、企業、アカデミックにまたがる100の専門家によるタスクのベンチマークである。
DeepEvalは、コンテンツレベルの品質とレポートレベルの品質の両方をカバーする包括的なスイートである。
我々の分析は、信頼性と洞察に富んだ深い研究を進めるために必要な、現在の強み、繰り返し発生する障害モード、および重要なシステムコンポーネントを明らかにします。
論文 参考訳(メタデータ) (2025-10-16T02:49:16Z) - Towards Real-Time Fake News Detection under Evidence Scarcity [66.58597356379907]
本稿では,リアルタイムフェイクニュース検出のための新しいフレームワークである評価アウェア・セレクション・オブ・エキスパートズ(EASE)を提案する。
EASEは、利用可能な証拠の十分性を評価した意思決定プロセスに適合する。
本稿では,新興ニュースのモデル一般化を限られた証拠で評価するための新しいベンチマークであるRealTimeNews-25を紹介する。
論文 参考訳(メタデータ) (2025-10-13T11:11:46Z) - Curse of Knowledge: When Complex Evaluation Context Benefits yet Biases LLM Judges [72.3356133063925]
審査員としての大規模言語モデル(LLM)のパラダイムはスケーラブルなソリューションとして登場したが、以前の作業は主に単純な設定に焦点を当てていた。
我々の詳細な分析は、評価信号の精度と妥当性を向上させるための重要な洞察を提供する。
論文 参考訳(メタデータ) (2025-09-03T15:48:33Z) - ReportBench: Evaluating Deep Research Agents via Academic Survey Tasks [14.371010711040304]
ReportBenchは、大規模言語モデル(LLM)によって生成された研究レポートの内容品質を評価するために設計されたベンチマークである。
本評価は,(1)引用文献の質と妥当性,(2)報告内容の忠実さと妥当性の2つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2025-08-14T03:33:43Z) - Expert Preference-based Evaluation of Automated Related Work Generation [54.29459509574242]
本稿では,従来の作業評価基準と専門家固有の嗜好を統合したマルチターン評価フレームワークGREPを提案する。
より優れたアクセシビリティを実現するため、我々はGREPの2つの変種を設計する: プロプライエタリなLLMを評価対象とするより正確な変種と、オープンウェイトなLLMをより安価な代替品である。
論文 参考訳(メタデータ) (2025-08-11T13:08:07Z) - VerifyBench: A Systematic Benchmark for Evaluating Reasoning Verifiers Across Domains [19.579511315215424]
大規模な言語モデルは、フィードバックを通じて推論能力を高めるために強化学習に依存している。
既存の研究では、より良い検証器の構築に焦点が当てられているが、異なる種類の検証器の性能の体系的な評価は依然として不十分である。
我々は、数学、物理学、化学、生物学に関する4000のエキスパートレベルの質問を構築した。
各質問には基準回答と多様な応答が備わっている。
論文 参考訳(メタデータ) (2025-07-14T03:45:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。