論文の概要: DRACO: a Cross-Domain Benchmark for Deep Research Accuracy, Completeness, and Objectivity
- arxiv url: http://arxiv.org/abs/2602.11685v1
- Date: Thu, 12 Feb 2026 08:07:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.710786
- Title: DRACO: a Cross-Domain Benchmark for Deep Research Accuracy, Completeness, and Objectivity
- Title(参考訳): DRACO: ディープリサーチの正確性、完全性、客観性のためのクロスドメインベンチマーク
- Authors: Joey Zhong, Hao Zhang, Clare Southern, Jeremy Yang, Thomas Wang, Kate Jung, Shu Zhang, Denis Yarats, Johnny Ho, Jerry Ma,
- Abstract要約: DRACO(Deep Research Accuracy, Completeness, Objectivity)は、複雑な研究課題のベンチマークである。
これらのタスクは10のドメインにまたがり、40か国からの情報ソースを引き出す。
- 参考スコア(独自算出の注目度): 8.463109532718482
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present DRACO (Deep Research Accuracy, Completeness, and Objectivity), a benchmark of complex deep research tasks. These tasks, which span 10 domains and draw on information sources from 40 countries, originate from anonymized real-world usage patterns within a large-scale deep research system. Tasks are sampled from a de-identified dataset of Perplexity Deep Research requests, then filtered and augmented to ensure that the tasks are anonymized, open-ended and complex, objectively evaluable, and representative of the broad scope of real-world deep research use cases. Outputs are graded against task-specific rubrics along four dimensions: factual accuracy (accuracy), breadth and depth of analysis (including completeness), presentation quality (including objectivity), and citation quality. DRACO is publicly available at https://hf.co/datasets/perplexity-ai/draco.
- Abstract(参考訳): DRACO(Deep Research Accuracy, Completeness, Objectivity)は、複雑な研究課題のベンチマークである。
これらのタスクは10のドメインにまたがり、40か国からの情報ソースを引いたもので、大規模なディープリサーチシステム内の匿名化された現実世界の使用パターンに由来する。
タスクは、未確認のPerplexity Deep Researchリクエストのデータセットからサンプリングされ、フィルターと拡張により、タスクが匿名化され、オープンエンドで、複雑で、客観的に評価可能で、現実世界のディープリサーチユースケースの幅広い範囲を代表していることを保証します。
アウトプットは、実際の正確性(正確性)、広さと分析の深さ(完全性を含む)、プレゼンテーション品質(客観性を含む)、引用品質の4つの次元に沿ってタスク固有のルーリックに対して評価される。
DRACOはhttps://hf.co/datasets/perplexity-ai/draco.comで公開されている。
関連論文リスト
- DeepResearchEval: An Automated Framework for Deep Research Task Construction and Agentic Evaluation [56.886936435727854]
DeepResearchEvalは、ディープリサーチタスク構築とエージェント評価のための自動化フレームワークである。
タスク構築のために,多様なユーザプロファイルに固定された現実的で複雑な研究タスクを生成するペルソナ駆動パイプラインを提案する。
評価には,タスク固有の評価次元,基準,重みを動的に導出する適応的ポイントワイド品質評価と,引用が欠落した場合でもWeb検索によるレポート文の自動抽出と検証を行うアクティブ・ファクト・チェッキングの2つの要素からなるエージェントパイプラインを提案する。
論文 参考訳(メタデータ) (2026-01-14T18:38:31Z) - Step-DeepResearch Technical Report [90.50586290399683]
コスト効率のよいエンドツーエンドエージェントである Step-DeepResearch を紹介する。
我々は、計画とレポート作成を強化するために、アトミック能力に基づくデータ合成戦略を提案する。
中国における評価ギャップを埋めるため,現実的な深層研究シナリオのためのADR-Benchを構築した。
論文 参考訳(メタデータ) (2025-12-23T16:32:27Z) - Tongyi DeepResearch Technical Report [111.78446943571782]
Tongyi DeepResearchは、自律的な深層研究機関にインセンティブを与えるため、エンドツーエンドのトレーニングフレームワークを通じて開発されている。
Tongyi DeepResearchは合計35億のパラメータを達成している。
私たちは、コミュニティを強化するためのモデル、フレームワーク、完全なソリューションをオープンソースにしています。
論文 参考訳(メタデータ) (2025-10-28T17:53:02Z) - LiveResearchBench: A Live Benchmark for User-Centric Deep Research in the Wild [86.6586720134927]
LiveResearchBenchは、日々の生活、企業、アカデミックにまたがる100の専門家によるタスクのベンチマークである。
DeepEvalは、コンテンツレベルの品質とレポートレベルの品質の両方をカバーする包括的なスイートである。
我々の分析は、信頼性と洞察に富んだ深い研究を進めるために必要な、現在の強み、繰り返し発生する障害モード、および重要なシステムコンポーネントを明らかにします。
論文 参考訳(メタデータ) (2025-10-16T02:49:16Z) - Understanding DeepResearch via Reports [41.60038455664918]
DeepResearchは、高度な推論とマルチツール統合を通じて専門家レベルの研究を行う、変革的なAIパラダイムである。
これらのシステムを評価することは、オープンな研究シナリオと、独立した機能に焦点を当てた既存のベンチマークのため、依然として極めて難しい。
DeepResearch-ReportEvalは、DeepResearchシステムを最も代表的なアウトプットで評価するための総合的なフレームワークである。
論文 参考訳(メタデータ) (2025-10-09T07:03:43Z) - Towards Personalized Deep Research: Benchmarks and Evaluations [56.581105664044436]
我々は、Deep Research Agents(DRA)におけるパーソナライズ評価のための最初のベンチマークであるPersonalized Deep Research Benchを紹介する。
さまざまな研究タスク50と、構造化されたペルソナ属性と動的現実世界のコンテキストを組み合わせた25のユーザプロファイルを組み合わせ、250のリアルなユーザタスククエリを生成する。
さまざまなシステムの実験は、パーソナライズされたディープリサーチを扱う際の現在の能力と限界を強調します。
論文 参考訳(メタデータ) (2025-09-29T17:39:17Z) - DeepResearcher: Scaling Deep Research via Reinforcement Learning in Real-world Environments [20.498100965239818]
我々は、LLMベースのディープリサーチエージェントのエンドツーエンドトレーニングのための、初の総合的なフレームワークであるDeepResearcherを紹介する。
固定コーパス内にすべての必要な情報が存在すると仮定するRAGベースのアプローチとは異なり、我々の手法はオープンウェブのノイズ、非構造化、動的性質をナビゲートするエージェントを訓練する。
オープンドメインの研究タスクに関する大規模な実験は、DeepResearcherがエンジニアリングベースの素早いベースラインよりも最大28.9ポイントの大幅な改善を達成していることを示している。
論文 参考訳(メタデータ) (2025-04-04T04:41:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。