論文の概要: DeepScholar-Bench: A Live Benchmark and Automated Evaluation for Generative Research Synthesis
- arxiv url: http://arxiv.org/abs/2508.20033v1
- Date: Wed, 27 Aug 2025 16:36:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.710051
- Title: DeepScholar-Bench: A Live Benchmark and Automated Evaluation for Generative Research Synthesis
- Title(参考訳): DeepScholar-Bench: 生成的研究合成のためのライブベンチマークと自動評価
- Authors: Liana Patel, Negar Arabzadeh, Harshit Gupta, Ankita Sundar, Ion Stoica, Matei Zaharia, Carlos Guestrin,
- Abstract要約: 本稿では,生のベンチマークと総合的自動評価フレームワークであるDeepScholar-benchを紹介する。
DeepScholar-benchは、最近の高品質なArXiv論文からクエリを抽出し、真の研究合成タスクにフォーカスしている。
また,LOTUS APIを用いて効率的に実装した参照パイプラインであるDeepScholar-baseを開発した。
- 参考スコア(独自算出の注目度): 52.636738269442766
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to research and synthesize knowledge is central to human expertise and progress. An emerging class of systems promises these exciting capabilities through generative research synthesis, performing retrieval over the live web and synthesizing discovered sources into long-form, cited summaries. However, evaluating such systems remains an open challenge: existing question-answering benchmarks focus on short-form factual responses, while expert-curated datasets risk staleness and data contamination. Both fail to capture the complexity and evolving nature of real research synthesis tasks. In this work, we introduce DeepScholar-bench, a live benchmark and holistic, automated evaluation framework designed to evaluate generative research synthesis. DeepScholar-bench draws queries from recent, high-quality ArXiv papers and focuses on a real research synthesis task: generating the related work sections of a paper by retrieving, synthesizing, and citing prior research. Our evaluation framework holistically assesses performance across three key dimensions, knowledge synthesis, retrieval quality, and verifiability. We also develop DeepScholar-base, a reference pipeline implemented efficiently using the LOTUS API. Using the DeepScholar-bench framework, we perform a systematic evaluation of prior open-source systems, search AI's, OpenAI's DeepResearch, and DeepScholar-base. We find that DeepScholar-base establishes a strong baseline, attaining competitive or higher performance than each other method. We also find that DeepScholar-bench remains far from saturated, with no system exceeding a score of $19\%$ across all metrics. These results underscore the difficulty of DeepScholar-bench, as well as its importance for progress towards AI systems capable of generative research synthesis. We make our code available at https://github.com/guestrin-lab/deepscholar-bench.
- Abstract(参考訳): 知識を研究し、合成する能力は、人間の専門知識と進歩の中心である。
新たなタイプのシステムでは、生成的な研究合成、ライブウェブ上での検索、発見されたソースを長めの要約に合成することで、これらのエキサイティングな機能を約束している。
しかし、そのようなシステムを評価することはオープンな課題であり、既存の質問回答ベンチマークは短文の事実応答に重点を置いている。
どちらも、実際の研究合成タスクの複雑さと進化の性質を捉えられなかった。
本稿では,生のベンチマークと総合的自動評価フレームワークであるDeepScholar-benchを紹介する。
DeepScholar-benchは、最近の高品質なArXiv論文からの問い合わせを抽出し、論文の関連作業セクションを検索、合成、引用することで、実際の研究合成タスクに焦点を当てている。
評価フレームワークは,3つの重要な側面,知識合成,検索品質,妥当性を総合的に評価する。
また,LOTUS APIを用いて効率的に実装した参照パイプラインであるDeepScholar-baseを開発した。
DeepScholar-benchフレームワークを使用して、従来のオープンソースシステム、検索AI、OpenAIのDeepResearch、DeepScholar-baseを体系的に評価する。
DeepScholar-baseは強力なベースラインを確立し、互いに競争力や高いパフォーマンスを実現しています。
また、DeepScholar-benchは飽和状態には程遠いため、すべてのメトリクスに対して19セントのスコアを超えるシステムは存在しない。
これらの結果は、DeepScholar-benchの難しさと、生成的な研究合成が可能なAIシステムへの進歩の重要性を浮き彫りにしている。
コードはhttps://github.com/guestrin-lab/deepscholar-bench.comで公開しています。
関連論文リスト
- DeepResearch$^{\text{Eco}}$: A Recursive Agentic Workflow for Complex Scientific Question Answering in Ecology [0.0]
DeepResearchは、自動化された科学合成のための新しいエージェントLLMベースのシステムである。
深度制御と広帯域制御によるオリジナルの研究課題の探索を支援する。
DeepResearchは、最大21倍のソース統合を実現している。
論文 参考訳(メタデータ) (2025-07-14T17:47:28Z) - Benchmarking Deep Search over Heterogeneous Enterprise Data [73.55304268238474]
検索強化生成(RAG)の形式を評価するための新しいベンチマークを提案する。
RAGは、多種多様な、しかし関連するソースに対して、ソースを意識したマルチホップ推論を必要とする。
製品計画、開発、サポートステージをまたいだビジネスをシミュレートする合成データパイプラインを使用して構築します。
論文 参考訳(メタデータ) (2025-06-29T08:34:59Z) - From Web Search towards Agentic Deep Research: Incentivizing Search with Reasoning Agents [96.65646344634524]
推論とエージェント能力を備えた大規模言語モデル(LLM)は、エージェントディープリサーチ(Agenic Deep Research)と呼ばれる新しいパラダイムを取り入れている。
静的なWeb検索から,計画,探索,学習を行う対話型エージェントベースのシステムへの進化を辿ります。
我々はエージェントディープリサーチが既存のアプローチを著しく上回るだけでなく、将来の情報探索において支配的なパラダイムになることを実証する。
論文 参考訳(メタデータ) (2025-06-23T17:27:19Z) - DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents [30.768405850755602]
DeepResearch Benchは100のPhDレベルの研究タスクからなるベンチマークである。
ディープリサーチエージェントの評価は本質的に複雑で、労働集約的である。
本稿では,人間の判断に強く適合する2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2025-06-13T13:17:32Z) - DeepResearchGym: A Free, Transparent, and Reproducible Evaluation Sandbox for Deep Research [25.368303145176554]
DeepResearchGymはオープンソースのサンドボックスで、検索APIと、ディープリサーチシステムのベンチマークのための厳格な評価プロトコルを組み合わせる。
このAPIは大規模な公開Webコーパス、すなわちClueWeb22とFineWebをインデックスし、最先端の高密度検索器と、DikANNによる近接検索を使用する。
一般的な商用APIよりも低レイテンシを実現し、実行中の安定したドキュメントランキングを確保し、研究用に自由に利用できる。
論文 参考訳(メタデータ) (2025-05-25T18:16:13Z) - SimpleDeepSearcher: Deep Information Seeking via Web-Powered Reasoning Trajectory Synthesis [89.99161034065614]
Retrieval-augmented Generation (RAG) システムは複雑なディープ検索シナリオにおいて高度な大規模言語モデル(LLM)を持つ。
既存のアプローチでは、高品質なトレーニングトラジェクトリが欠如し、分散ミスマッチに苦しむ、重要な制限に直面しています。
本稿では,複雑なトレーニングパラダイムではなく,戦略的データエンジニアリングによるギャップを埋めるフレームワークであるSimpleDeepSearcherを紹介する。
論文 参考訳(メタデータ) (2025-05-22T16:05:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。