論文の概要: Characterizing Deep Research: A Benchmark and Formal Definition
- arxiv url: http://arxiv.org/abs/2508.04183v1
- Date: Wed, 06 Aug 2025 08:09:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.618304
- Title: Characterizing Deep Research: A Benchmark and Formal Definition
- Title(参考訳): ディープリサーチを特徴づける - ベンチマークと形式的定義
- Authors: Abhinav Java, Ashmit Khandelwal, Sukruta Midigeshi, Aaron Halfaker, Amit Deshpande, Navin Goyal, Ankur Gupta, Nagarajan Natarajan, Amit Sharma,
- Abstract要約: 本稿では,Deep Research (DR) タスクの形式的特徴付けと,DRシステムの性能評価のためのベンチマークを提案する。
ディープリサーチのコアとなる特徴は、レポートスタイルのアウトプットの生成ではなく、検索プロセスで必要となる概念に対する高いファンアウトである、と我々は主張する。
- 参考スコア(独自算出の注目度): 24.523394260858822
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Information tasks such as writing surveys or analytical reports require complex search and reasoning, and have recently been grouped under the umbrella of \textit{deep research} -- a term also adopted by recent models targeting these capabilities. Despite growing interest, the scope of the deep research task remains underdefined and its distinction from other reasoning-intensive problems is poorly understood. In this paper, we propose a formal characterization of the deep research (DR) task and introduce a benchmark to evaluate the performance of DR systems. We argue that the core defining feature of deep research is not the production of lengthy report-style outputs, but rather the high fan-out over concepts required during the search process, i.e., broad and reasoning-intensive exploration. To enable objective evaluation, we define DR using an intermediate output representation that encodes key claims uncovered during search-separating the reasoning challenge from surface-level report generation. Based on this formulation, we propose a diverse, challenging benchmark LiveDRBench with 100 challenging tasks over scientific topics (e.g., datasets, materials discovery, prior art search) and public interest events (e.g., flight incidents, movie awards). Across state-of-the-art DR systems, F1 score ranges between 0.02 and 0.72 for any sub-category. OpenAI's model performs the best with an overall F1 score of 0.55. Analysis of reasoning traces reveals the distribution over the number of referenced sources, branching, and backtracking events executed by current DR systems, motivating future directions for improving their search mechanisms and grounding capabilities. The benchmark is available at https://github.com/microsoft/LiveDRBench.
- Abstract(参考訳): 調査や分析レポートなどの情報タスクは複雑な検索と推論を必要としており、最近はtextit{deep research}の傘下でグループ化されている。
関心の高まりにもかかわらず、深い研究課題の範囲は未定義のままであり、他の推論集約的な問題との違いは理解されていない。
本稿では,Deep Research (DR)タスクの形式的特徴付けと,DRシステムの性能評価のためのベンチマークを提案する。
深層研究の中核的な特徴は、レポートスタイルのアウトプットの生成ではなく、探索過程において必要となる概念、すなわち広範かつ推論集約的な探索に対する高いファンアウトである、と我々は主張する。
客観評価を実現するために,サーチ中に発見されたキークレームを符号化した中間出力表現を用いてDRを定義する。
この定式化に基づいて,科学的なトピック(データセット,材料発見,先行技術探索)や公開関心イベント(フライトインシデント,映画賞など)に関して,100の課題を伴う多種多様かつ挑戦的なベンチマークLiveDRBenchを提案する。
最先端のDRシステム全体で、F1スコアは任意のサブカテゴリに対して0.02から0.72の範囲である。
OpenAIのモデルはF1総合スコア0.55で最高の成績を収めている。
推論トレースの分析は、現在のDRシステムによって実行される参照ソース数、分岐、バックトラックイベントの分布を明らかにし、検索機構とグラウンド機能を改善するための将来の方向性を動機付けている。
ベンチマークはhttps://github.com/microsoft/LiveDRBench.comで公開されている。
関連論文リスト
- Deep Researcher with Test-Time Diffusion [32.375428487905104]
実験時間拡散深層研究者は拡散過程として研究報告の生成を概念化する。
ドラフト中心のデザインは、レポート作成プロセスをよりタイムリーで一貫性のあるものにします。
我々のTTD-DRは、幅広いベンチマークで最先端の結果が得られることを実証する。
論文 参考訳(メタデータ) (2025-07-21T21:23:21Z) - Towards Agentic RAG with Deep Reasoning: A Survey of RAG-Reasoning Systems in LLMs [69.10441885629787]
Retrieval-Augmented Generation (RAG) は、外部知識を注入することによって、Large Language Models (LLM) の事実性を高める。
逆に、純粋に推論指向のアプローチは、しばしば幻覚的あるいは誤った事実を必要とする。
この調査は両鎖を統一的推論-検索の観点から合成する。
論文 参考訳(メタデータ) (2025-07-13T03:29:41Z) - Benchmarking Deep Search over Heterogeneous Enterprise Data [73.55304268238474]
検索強化生成(RAG)の形式を評価するための新しいベンチマークを提案する。
RAGは、多種多様な、しかし関連するソースに対して、ソースを意識したマルチホップ推論を必要とする。
製品計画、開発、サポートステージをまたいだビジネスをシミュレートする合成データパイプラインを使用して構築します。
論文 参考訳(メタデータ) (2025-06-29T08:34:59Z) - DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents [30.768405850755602]
DeepResearch Benchは100のPhDレベルの研究タスクからなるベンチマークである。
ディープリサーチエージェントの評価は本質的に複雑で、労働集約的である。
本稿では,人間の判断に強く適合する2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2025-06-13T13:17:32Z) - Causal Retrieval with Semantic Consideration [6.967392207053045]
本稿では,2つの目的(意味と因果関係)で訓練された検索モデルであるCAWAIを提案する。
実験の結果,CAWAIは多様な因果検索タスクにおいて,様々なモデルよりも優れていた。
また,CAWAIは科学領域のQAタスクに対して強いゼロショットの一般化を示すことを示す。
論文 参考訳(メタデータ) (2025-04-07T03:04:31Z) - A Survey of Efficient Reasoning for Large Reasoning Models: Language, Multimodality, and Beyond [88.5807076505261]
大規模推論モデル (LRM) は, 推論中におけるチェーン・オブ・ソート (CoT) の推論長を拡大することにより, 高い性能向上を示した。
懸念が高まっているのは、過度に長い推論の痕跡を生み出す傾向にある。
この非効率性は、トレーニング、推論、現実のデプロイメントに重大な課題をもたらす。
論文 参考訳(メタデータ) (2025-03-27T15:36:30Z) - Beyond the Destination: A Novel Benchmark for Exploration-Aware Embodied Question Answering [87.76784654371312]
Embodied Question Answeringでは、エージェントが動的に3D環境を探索し、視覚情報を積極的に収集し、質問に答えるために多段階の推論を行う必要がある。
既存のデータセットはしばしばバイアスや事前の知識を導入し、非身体的推論につながる。
探索能力と推論能力の両方を評価するために特別に設計された最大のデータセットを構築します。
論文 参考訳(メタデータ) (2025-03-14T06:29:47Z) - Enhancing LLM Reasoning with Reward-guided Tree Search [95.06503095273395]
o1のような推論アプローチは困難で、研究者はこのオープンな研究領域を前進させようとさまざまな試みを行ってきた。
本稿では,報酬誘導木探索アルゴリズムを用いて,LLMの推論能力を高めるための予備的な検討を行う。
論文 参考訳(メタデータ) (2024-11-18T16:15:17Z) - Robust Neural Information Retrieval: An Adversarial and Out-of-distribution Perspective [111.58315434849047]
ニューラルネットワーク検索モデル(IR)モデルの堅牢性は、大きな注目を集めている。
我々は、IRの堅牢性を多面的概念とみなし、敵攻撃、アウト・オブ・ディストリビューション(OOD)シナリオ、パフォーマンスのばらつきに対してその必要性を強調している。
我々は,既存の手法,データセット,評価指標について詳細な議論を行い,大規模言語モデルの時代における課題や今後の方向性に光を当てる。
論文 参考訳(メタデータ) (2024-07-09T16:07:01Z) - ConvFinQA: Exploring the Chain of Numerical Reasoning in Conversational
Finance Question Answering [70.6359636116848]
本稿では,対話型質問応答における数値推論の連鎖を研究するために,新しい大規模データセットConvFinQAを提案する。
我々のデータセットは、現実世界の会話において、長距離で複雑な数値推論パスをモデル化する上で大きな課題となる。
論文 参考訳(メタデータ) (2022-10-07T23:48:50Z) - Deep Depth Completion: A Survey [26.09557446012222]
我々は、読者が研究動向をよりよく把握し、現在の進歩を明確に理解するのに役立つ総合的な文献レビューを提供する。
ネットワークアーキテクチャ,損失関数,ベンチマークデータセット,学習戦略の設計面から,関連する研究について検討する。
室内および屋外のデータセットを含む,広く使用されている2つのベンチマークデータセットに対して,モデル性能の定量的比較を行った。
論文 参考訳(メタデータ) (2022-05-11T08:24:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。