論文の概要: LiveResearchBench: A Live Benchmark for User-Centric Deep Research in the Wild
- arxiv url: http://arxiv.org/abs/2510.14240v1
- Date: Thu, 16 Oct 2025 02:49:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.683616
- Title: LiveResearchBench: A Live Benchmark for User-Centric Deep Research in the Wild
- Title(参考訳): LiveResearchBench: 野生のユーザ中心のディープリサーチのためのライブベンチマーク
- Authors: Jiayu Wang, Yifei Ming, Riya Dulepet, Qinglin Chen, Austin Xu, Zixuan Ke, Frederic Sala, Aws Albarghouthi, Caiming Xiong, Shafiq Joty,
- Abstract要約: LiveResearchBenchは、日々の生活、企業、アカデミックにまたがる100の専門家によるタスクのベンチマークである。
DeepEvalは、コンテンツレベルの品質とレポートレベルの品質の両方をカバーする包括的なスイートである。
我々の分析は、信頼性と洞察に富んだ深い研究を進めるために必要な、現在の強み、繰り返し発生する障害モード、および重要なシステムコンポーネントを明らかにします。
- 参考スコア(独自算出の注目度): 86.6586720134927
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Deep research -- producing comprehensive, citation-grounded reports by searching and synthesizing information from hundreds of live web sources -- marks an important frontier for agentic systems. To rigorously evaluate this ability, four principles are essential: tasks should be (1) user-centric, reflecting realistic information needs, (2) dynamic, requiring up-to-date information beyond parametric knowledge, (3) unambiguous, ensuring consistent interpretation across users, and (4) multi-faceted and search-intensive, requiring search over numerous web sources and in-depth analysis. Existing benchmarks fall short of these principles, often focusing on narrow domains or posing ambiguous questions that hinder fair comparison. Guided by these principles, we introduce LiveResearchBench, a benchmark of 100 expert-curated tasks spanning daily life, enterprise, and academia, each requiring extensive, dynamic, real-time web search and synthesis. Built with over 1,500 hours of human labor, LiveResearchBench provides a rigorous basis for systematic evaluation. To evaluate citation-grounded long-form reports, we introduce DeepEval, a comprehensive suite covering both content- and report-level quality, including coverage, presentation, citation accuracy and association, consistency and depth of analysis. DeepEval integrates four complementary evaluation protocols, each designed to ensure stable assessment and high agreement with human judgments. Using LiveResearchBench and DeepEval, we conduct a comprehensive evaluation of 17 frontier deep research systems, including single-agent web search, single-agent deep research, and multi-agent systems. Our analysis reveals current strengths, recurring failure modes, and key system components needed to advance reliable, insightful deep research.
- Abstract(参考訳): 数百のライブWebソースから情報を検索し、合成することで、総合的で引用可能なレポートを生成するディープリサーチは、エージェントシステムにとって重要なフロンティアである。
この能力を厳格に評価するためには,(1)タスクはユーザ中心で,現実的な情報ニーズを反映し,(2)動的で,パラメトリック知識以上の最新情報を必要とする,(3)不明瞭で,ユーザ間の一貫した解釈を確保する,(4)多面的かつ検索集約的な,多数のWebソースと詳細な分析を必要とする,という4つの原則が不可欠である。
既存のベンチマークはこれらの原則に欠けており、狭い領域に焦点を当てたり、公平な比較を妨げる曖昧な疑問を提起することが多い。
これらの原則によってガイドされたLiveResearchBenchは、日々の生活、企業、学業にまたがる100の専門的なタスクのベンチマークであり、それぞれが広範囲で動的でリアルタイムなWeb検索と合成を必要とする。
1500時間以上の人的労働で構築されたLiveResearchBenchは、体系的な評価のための厳格な基盤を提供する。
DeepEvalは, 記事内容, プレゼンテーション, 引用精度, 関連性, 一貫性, 分析深度など, 内容レベルおよび報告レベルの品質を網羅した総合的なスイートである。
DeepEvalは、4つの補完的な評価プロトコルを統合し、それぞれが安定した評価と人間の判断との高い一致を保証するように設計されている。
我々はLiveResearchBenchとDeepEvalを用いて、シングルエージェントWeb検索、シングルエージェントディープリサーチ、マルチエージェントシステムを含む17のフロンティアディープリサーチシステムの総合的な評価を行う。
我々の分析は、信頼性と洞察に富んだ深い研究を進めるために必要な、現在の強み、繰り返し発生する障害モード、および重要なシステムコンポーネントを明らかにします。
関連論文リスト
- Understanding DeepResearch via Reports [41.60038455664918]
DeepResearchは、高度な推論とマルチツール統合を通じて専門家レベルの研究を行う、変革的なAIパラダイムである。
これらのシステムを評価することは、オープンな研究シナリオと、独立した機能に焦点を当てた既存のベンチマークのため、依然として極めて難しい。
DeepResearch-ReportEvalは、DeepResearchシステムを最も代表的なアウトプットで評価するための総合的なフレームワークである。
論文 参考訳(メタデータ) (2025-10-09T07:03:43Z) - Towards Personalized Deep Research: Benchmarks and Evaluations [56.581105664044436]
我々は、Deep Research Agents(DRA)におけるパーソナライズ評価のための最初のベンチマークであるPersonalized Deep Research Benchを紹介する。
さまざまな研究タスク50と、構造化されたペルソナ属性と動的現実世界のコンテキストを組み合わせた25のユーザプロファイルを組み合わせ、250のリアルなユーザタスククエリを生成する。
さまざまなシステムの実験は、パーソナライズされたディープリサーチを扱う際の現在の能力と限界を強調します。
論文 参考訳(メタデータ) (2025-09-29T17:39:17Z) - WebResearcher: Unleashing unbounded reasoning capability in Long-Horizon Agents [72.28593628378991]
WebResearcherは、マルコフ決定プロセスとしてディープリサーチを再構築する反復的なディープリサーチパラダイムである。
WebResearcherは最先端のパフォーマンスを実現し、フロンティアのプロプライエタリシステムを超えています。
論文 参考訳(メタデータ) (2025-09-16T17:57:17Z) - DeepTRACE: Auditing Deep Research AI Systems for Tracking Reliability Across Citations and Evidence [50.97612134791782]
生成検索エンジンと深層研究のLLMエージェントは、信頼できるソース・グラウンドの合成を約束するが、ユーザーは常に過剰な自信、弱いソーシング、紛らわしい引用の慣行に遭遇する。
DeepTRACEは、社会技術的に基礎をおく新しい監査フレームワークで、コミュニティが特定した失敗事例を、回答テキスト、情報源、引用にまたがる8つの測定可能な次元に変換する。
論文 参考訳(メタデータ) (2025-09-02T00:32:38Z) - BrowseComp-Plus: A More Fair and Transparent Evaluation Benchmark of Deep-Research Agent [74.10138164281618]
BrowseComp-Plus(BrowseComp-Plus)は、BrowseCompから派生したベンチマークである。
このベンチマークは、ディープリサーチエージェントと検索方法の総合的な評価とアンタングル解析を可能にする。
論文 参考訳(メタデータ) (2025-08-08T17:55:11Z) - Mind2Web 2: Evaluating Agentic Search with Agent-as-a-Judge [34.672897171399775]
エージェント検索システムは、ウェブを自律的に閲覧し、情報を合成し、包括的な引用支援の回答を返す。
Mind2Web 2は、1000時間以上の人的労働力で構築された130の現実的で高品質で長期にわたるタスクのベンチマークである。
本手法は,木構造設計に基づくタスク固有の判断エージェントを構築し,回答の正しさとソース属性の両方を自動的に評価する。
論文 参考訳(メタデータ) (2025-06-26T17:32:50Z) - DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents [30.768405850755602]
DeepResearch Benchは100のPhDレベルの研究タスクからなるベンチマークである。
ディープリサーチエージェントの評価は本質的に複雑で、労働集約的である。
本稿では,人間の判断に強く適合する2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2025-06-13T13:17:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。