論文の概要: ReportBench: Evaluating Deep Research Agents via Academic Survey Tasks
- arxiv url: http://arxiv.org/abs/2508.15804v1
- Date: Thu, 14 Aug 2025 03:33:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-31 21:54:20.546259
- Title: ReportBench: Evaluating Deep Research Agents via Academic Survey Tasks
- Title(参考訳): ReportBench: 学術調査課題によるディープリサーチエージェントの評価
- Authors: Minghao Li, Ying Zeng, Zhihao Cheng, Cong Ma, Kai Jia,
- Abstract要約: ReportBenchは、大規模言語モデル(LLM)によって生成された研究レポートの内容品質を評価するために設計されたベンチマークである。
本評価は,(1)引用文献の質と妥当性,(2)報告内容の忠実さと妥当性の2つの重要な側面に焦点をあてる。
- 参考スコア(独自算出の注目度): 14.371010711040304
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The advent of Deep Research agents has substantially reduced the time required for conducting extensive research tasks. However, these tasks inherently demand rigorous standards of factual accuracy and comprehensiveness, necessitating thorough evaluation before widespread adoption. In this paper, we propose ReportBench, a systematic benchmark designed to evaluate the content quality of research reports generated by large language models (LLMs). Our evaluation focuses on two critical dimensions: (1) the quality and relevance of cited literature, and (2) the faithfulness and veracity of the statements within the generated reports. ReportBench leverages high-quality published survey papers available on arXiv as gold-standard references, from which we apply reverse prompt engineering to derive domain-specific prompts and establish a comprehensive evaluation corpus. Furthermore, we develop an agent-based automated framework within ReportBench that systematically analyzes generated reports by extracting citations and statements, checking the faithfulness of cited content against original sources, and validating non-cited claims using web-based resources. Empirical evaluations demonstrate that commercial Deep Research agents such as those developed by OpenAI and Google consistently generate more comprehensive and reliable reports than standalone LLMs augmented with search or browsing tools. However, there remains substantial room for improvement in terms of the breadth and depth of research coverage, as well as factual consistency. The complete code and data will be released at the following link: https://github.com/ByteDance-BandAI/ReportBench
- Abstract(参考訳): ディープ・リサーチ・エージェントの出現により、広範囲の研究作業に要する時間が大幅に短縮された。
しかし、これらのタスクは本質的には事実の正確さと包括性という厳密な基準を必要とし、広く採用される前に徹底的な評価を必要とする。
本稿では,大規模言語モデル (LLM) が生成する研究報告の質を評価するためのシステムベンチマークであるReportBenchを提案する。
本評価は,(1)引用文献の質と妥当性,(2)報告内容の忠実さと妥当性の2つの重要な側面に焦点をあてる。
ReportBenchは、arXivで利用可能な高品質な調査論文をゴールドスタンダードリファレンスとして活用し、ドメイン固有のプロンプトを導出するためにリバースプロンプトエンジニアリングを適用し、包括的な評価コーパスを確立する。
さらに、ReportBench内のエージェントベースの自動フレームワークを開発し、引用文や文を抽出し、引用されたコンテンツが元のソースに対して忠実であることを確認し、Webベースのリソースを用いて非引用クレームを検証することによって、生成されたレポートを体系的に分析する。
実証的な評価は、OpenAIやGoogleが開発した商用のDeep Researchエージェントが、検索やブラウジングツールで強化されたスタンドアロンのLCMよりも、一貫して包括的で信頼性の高いレポートを生成することを示している。
しかし, 研究範囲の広さと深度, 事実整合性に関して, 改善の余地は十分に残されている。
完全なコードとデータは以下のリンクでリリースされる。 https://github.com/ByteDance-BandAI/ReportBench
関連論文リスト
- Benchmarking Computer Science Survey Generation [18.844790013427282]
SurGE(Survey Generation Evaluation)は、コンピュータサイエンス領域における科学的サーベイ生成を評価するための新しいベンチマークである。
SurGEは,(1)トピック記述,専門家による調査,および参照参照の完全なセットを含む一連のテストインスタンスと,(2)検索プールとして機能する100万以上の論文からなる大規模学術コーパスから構成される。
さらに,情報カバレッジ,参照精度,構造組織,コンテンツ品質の4次元にわたる自動評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-21T15:45:10Z) - Toward Verifiable Misinformation Detection: A Multi-Tool LLM Agent Framework [0.5999777817331317]
本研究は、革新的な誤情報検出LLMエージェントを提案する。
エージェントは、多様なWebソースとの動的相互作用を通じて、クレームを積極的に検証する。
情報ソースの信頼性を評価し、証拠を合成し、完全な検証可能な推論プロセスを提供する。
論文 参考訳(メタデータ) (2025-08-05T05:15:03Z) - From Web Search towards Agentic Deep Research: Incentivizing Search with Reasoning Agents [96.65646344634524]
推論とエージェント能力を備えた大規模言語モデル(LLM)は、エージェントディープリサーチ(Agenic Deep Research)と呼ばれる新しいパラダイムを取り入れている。
静的なWeb検索から,計画,探索,学習を行う対話型エージェントベースのシステムへの進化を辿ります。
我々はエージェントディープリサーチが既存のアプローチを著しく上回るだけでなく、将来の情報探索において支配的なパラダイムになることを実証する。
論文 参考訳(メタデータ) (2025-06-23T17:27:19Z) - DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents [30.768405850755602]
DeepResearch Benchは100のPhDレベルの研究タスクからなるベンチマークである。
ディープリサーチエージェントの評価は本質的に複雑で、労働集約的である。
本稿では,人間の判断に強く適合する2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2025-06-13T13:17:32Z) - OpenReview Should be Protected and Leveraged as a Community Asset for Research in the Era of Large Language Models [55.21589313404023]
OpenReviewは、研究論文、ピアレビュー、著者の反論、メタレビュー、決定結果の継続的な進化を続けるリポジトリである。
OpenReviewは、ピアレビュープロセスの品質、スケーラビリティ、説明責任の向上、真に専門家の議論に根ざした有意義でオープンなベンチマークの実現、専門家の評価、意図、科学的価値を反映した現実世界のインタラクションによるアライメント研究の支援という、ユニークな貢献が可能な3つの領域を強調します。
コミュニティは、OpenReviewに関する標準化されたベンチマークと利用ガイドラインを共同で検討し、責任あるデータの使用、倫理的考慮、集団スチュワードシップに関するより広範な対話を招待することを提案します。
論文 参考訳(メタデータ) (2025-05-24T09:07:13Z) - WebCiteS: Attributed Query-Focused Summarization on Chinese Web Search Results with Citations [34.99831757956635]
我々は,属性付きクエリ中心要約 (AQFS) のタスクを定式化するとともに,7kの人称注釈の要約を引用した中国語データセットであるWebCiteSを提示する。
これらの課題に対処するために、詳細なメトリクスを開発し、自動評価器が文を細かな検証のためにサブステートに分解できるようにする。
論文 参考訳(メタデータ) (2024-03-04T07:06:41Z) - PROXYQA: An Alternative Framework for Evaluating Long-Form Text Generation with Large Language Models [72.57329554067195]
ProxyQAは、長文生成を評価するための革新的なフレームワークである。
さまざまなドメインにまたがる詳細なヒューマンキュレートされたメタクエストで構成されており、それぞれに事前にアノテートされた回答を持つ特定のプロキシクエストが伴っている。
プロキシクエリに対処する際の評価器の精度を通じて、生成されたコンテンツの品質を評価する。
論文 参考訳(メタデータ) (2024-01-26T18:12:25Z) - Investigating Fairness Disparities in Peer Review: A Language Model
Enhanced Approach [77.61131357420201]
我々は、大規模言語モデル(LM)の助けを借りて、ピアレビューにおける公平性格差の徹底した厳密な研究を行う。
我々は、2017年から現在までのICLR(International Conference on Learning Representations)カンファレンスで、包括的なリレーショナルデータベースを収集、組み立て、維持しています。
我々は、著作者性別、地理、著作者、機関的名声など、興味のある複数の保護属性に対する公平性の違いを仮定し、研究する。
論文 参考訳(メタデータ) (2022-11-07T16:19:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。