論文の概要: Improving and Evaluating Open Deep Research Agents
- arxiv url: http://arxiv.org/abs/2508.10152v1
- Date: Wed, 13 Aug 2025 19:32:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.098818
- Title: Improving and Evaluating Open Deep Research Agents
- Title(参考訳): オープンディープリサーチエージェントの改良と評価
- Authors: Doaa Allabadi, Kyle Bradbury, Jordan M. Malof,
- Abstract要約: 私たちは、ユーザーから自然言語のプロンプトを受け取り、そのプロンプトに対処するためにインターネットベースのコンテンツを自律的に検索し、活用できるシステムであるDeep Research Agents(DRA)に注目します。
最近のDRAは、公開ベンチマークで印象的な機能を示しているが、最近の研究は、主にプロプライエタリなクローズドソースシステムを含んでいる。
- 参考スコア(独自算出の注目度): 2.66269503676104
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We focus here on Deep Research Agents (DRAs), which are systems that can take a natural language prompt from a user, and then autonomously search for, and utilize, internet-based content to address the prompt. Recent DRAs have demonstrated impressive capabilities on public benchmarks however, recent research largely involves proprietary closed-source systems. At the time of this work, we only found one open-source DRA, termed Open Deep Research (ODR). In this work we adapt the challenging recent BrowseComp benchmark to compare ODR to existing proprietary systems. We propose BrowseComp-Small (BC-Small), comprising a subset of BrowseComp, as a more computationally-tractable DRA benchmark for academic labs. We benchmark ODR and two other proprietary systems on BC-Small: one system from Anthropic and one system from Google. We find that all three systems achieve 0% accuracy on the test set of 60 questions. We introduce three strategic improvements to ODR, resulting in the ODR+ model, which achieves a state-of-the-art 10% success rate on BC-Small among both closed-source and open-source systems. We report ablation studies indicating that all three of our improvements contributed to the success of ODR+.
- Abstract(参考訳): 私たちは、ユーザーから自然言語のプロンプトを受け取り、そのプロンプトに対処するためにインターネットベースのコンテンツを自律的に検索し、活用できるシステムであるDeep Research Agents(DRA)に注目します。
最近のDRAは、公開ベンチマークで印象的な機能を示しているが、最近の研究は、主にプロプライエタリなクローズドソースシステムを含んでいる。
この研究の時点では、Open Deep Research (ODR)と呼ばれるオープンソースのDRAが1つしか見つからなかった。
この作業では、最新のBrowseCompベンチマークを適用して、ODRと既存のプロプライエタリシステムを比較します。
我々は,BrowseCompのサブセットであるBrowseComp-Small(BC-Small)を,より計算的に抽出可能なDRAベンチマークとして提案する。
我々は、ODRとBC-Smallの他の2つのプロプライエタリなシステムをベンチマークし、Arthropicの1つのシステムとGoogleの1つのシステムを比較した。
3つのシステムすべてが60の質問からなるテストセットで0%の精度を実現していることがわかった。
我々はODRに3つの戦略的改善を導入し、ODR+モデルにより、BC-Smallのクローズドソースシステムとオープンソースシステムの両方において、最先端の10%の成功率を達成する。
以上の結果から,3つの改善がODR+の成功に寄与したことが示唆された。
関連論文リスト
- ResearcherBench: Evaluating Deep AI Research Systems on the Frontiers of Scientific Inquiry [22.615102398311432]
我々は、ディープAI研究システムの能力を評価することに焦点を当てた最初のベンチマークであるResearcherBenchを紹介する。
現実の科学的シナリオから専門的に選択された65の質問のデータセットを収集した。
OpenAI Deep ResearchとGemini Deep Researchは、他のシステムよりも格段に優れており、オープンエンドのコンサルティングの質問では特に強みがある。
論文 参考訳(メタデータ) (2025-07-22T06:51:26Z) - From Web Search towards Agentic Deep Research: Incentivizing Search with Reasoning Agents [96.65646344634524]
推論とエージェント能力を備えた大規模言語モデル(LLM)は、エージェントディープリサーチ(Agenic Deep Research)と呼ばれる新しいパラダイムを取り入れている。
静的なWeb検索から,計画,探索,学習を行う対話型エージェントベースのシステムへの進化を辿ります。
我々はエージェントディープリサーチが既存のアプローチを著しく上回るだけでなく、将来の情報探索において支配的なパラダイムになることを実証する。
論文 参考訳(メタデータ) (2025-06-23T17:27:19Z) - DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents [30.768405850755602]
DeepResearch Benchは100のPhDレベルの研究タスクからなるベンチマークである。
ディープリサーチエージェントの評価は本質的に複雑で、労働集約的である。
本稿では,人間の判断に強く適合する2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2025-06-13T13:17:32Z) - Do RAG Systems Cover What Matters? Evaluating and Optimizing Responses with Sub-Question Coverage [74.70255719194819]
サブクエストカバレッジに基づく新しいフレームワークを導入し、RAGシステムが質問の異なる面にどのように対処するかを計測する。
このフレームワークを使用して、You.com、Perplexity AI、Bing Chatの3つの商用生成応答エンジンを評価します。
すべての回答エンジンは、バックグラウンドやフォローアップよりも、コアサブクエストを頻繁にカバーしていますが、コアサブクエストの約50%を見逃しています。
論文 参考訳(メタデータ) (2024-10-20T22:59:34Z) - Optimizing TD3 for 7-DOF Robotic Arm Grasping: Overcoming Suboptimality with Exploration-Enhanced Contrastive Learning [0.0]
空間空間の探索が不十分なため、7-DOFロボットアームを制御する際の最適下方策がもたらされる。
本稿では,新しい状態に遭遇する際の追加報酬を提供することで,探索を改善する,探索強化コントラスト学習(EECL)モジュールを提案する。
本研究では,ロボットスーツパンダ昇降作業において,試験環境における効率と収束速度の両面で,ベースラインのTD3を著しく上回っていることを示す。
論文 参考訳(メタデータ) (2024-08-26T04:30:59Z) - EWEK-QA: Enhanced Web and Efficient Knowledge Graph Retrieval for Citation-based Question Answering Systems [103.91826112815384]
引用ベースのQAシステムは2つの欠点に悩まされている。
彼らは通常、抽出された知識の源としてWebにのみ依存し、外部の知識ソースを追加することで、システムの効率を損なう。
システムに供給された知識の内容を充実させるため,Web と 効率的な知識グラフ (KG) 検索ソリューション (EWEK-QA) を提案する。
論文 参考訳(メタデータ) (2024-06-14T19:40:38Z) - A Comprehensive Survey on Underwater Image Enhancement Based on Deep Learning [51.7818820745221]
水中画像強調(UIE)はコンピュータビジョン研究において重要な課題である。
多数のUIEアルゴリズムが開発されているにもかかわらず、網羅的で体系的なレビューはいまだに欠落している。
論文 参考訳(メタデータ) (2024-05-30T04:46:40Z) - Joint Speech Activity and Overlap Detection with Multi-Exit Architecture [5.4878772986187565]
オーバーラップ音声検出(OSD)は、多人数変換のシナリオにおける音声応用において重要である。
本研究は,新たな視点からVADとOSDの共同作業について検討する。
特に,従来の分類網をマルチエグジットアーキテクチャで拡張することを提案する。
論文 参考訳(メタデータ) (2022-09-24T02:34:11Z) - Exploration in two-stage recommender systems [79.50534282841618]
2段階のレコメンデータシステムは、スケーラビリティと保守性のために業界で広く採用されている。
このセットアップの鍵となる課題は、各ステージの最適性能が最適なグローバルパフォーマンスを暗示していないことである。
そこで本研究では,ランクとノミネーター間の探索戦略を同期させる手法を提案する。
論文 参考訳(メタデータ) (2020-09-01T16:52:51Z) - Deep Retrieval: Learning A Retrievable Structure for Large-Scale
Recommendations [21.68175843347951]
本稿では,ユーザとイテムのインタラクションデータを用いて,検索可能な構造を直接学習するために,Deep Retrieval(DR)を提案する。
DRは、産業レコメンデーションシステムのために数億のアイテムをスケールで展開した最初の非ANNアルゴリズムの1つである。
論文 参考訳(メタデータ) (2020-07-12T06:23:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。