論文の概要: Marco DeepResearch: Unlocking Efficient Deep Research Agents via Verification-Centric Design
- arxiv url: http://arxiv.org/abs/2603.28376v1
- Date: Mon, 30 Mar 2026 12:42:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.397093
- Title: Marco DeepResearch: Unlocking Efficient Deep Research Agents via Verification-Centric Design
- Title(参考訳): Marco DeepResearch: 検証中心設計による効率的なディープリサーチエージェントのロック解除
- Authors: Bin Zhu, Qianghuai Jia, Tian Lan, Junyang Ren, Feng Gu, Feihu Jiang, Longyue Wang, Zhao Xu, Weihua Luo,
- Abstract要約: Marco DeepResearchは、検証中心のフレームワーク設計を3段階に最適化したディープリサーチエージェントである。
本稿では,質問の難易度を制御するために,グラフベースおよびエージェントベースQA合成に検証機構を導入する。
実験軌道に明示的な検証パターンを注入する検証駆動合成軌道法を設計する。
Marco DeepResearch自体を推論時に検証として使用し、課題に対するパフォーマンスを効果的に向上する。
- 参考スコア(独自算出の注目度): 39.31356016375221
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep research agents autonomously conduct open-ended investigations, integrating complex information retrieval with multi-step reasoning across diverse sources to solve real-world problems. To sustain this capability on long-horizon tasks, reliable verification is critical during both training and inference. A major bottleneck in existing paradigms stems from the lack of explicit verification mechanisms in QA data synthesis, trajectory construction, and test-time scaling. Errors introduced at each stage propagate downstream and degrade the overall agent performance. To address this, we present Marco DeepResearch, a deep research agent optimized with a verification-centric framework design at three levels: \textbf{(1)~QA Data Synthesis:} We introduce verification mechanisms to graph-based and agent-based QA synthesis to control question difficulty while ensuring answers are unique and correct; \textbf{(2)~Trajectory Construction:} We design a verification-driven trajectory synthesis method that injects explicit verification patterns into training trajectories; and \textbf{(3)~Test-time scaling:} We use Marco DeepResearch itself as a verifier at inference time and effectively improve performance on challenging questions. Extensive experimental results demonstrate that our proposed Marco DeepResearch agent significantly outperforms 8B-scale deep research agents on most challenging benchmarks, such as BrowseComp and BrowseComp-ZH. Crucially, under a maximum budget of 600 tool calls, Marco DeepResearch even surpasses or approaches several 30B-scale agents, like Tongyi DeepResearch-30B.
- Abstract(参考訳): ディープリサーチエージェントは、オープンエンドの調査を自律的に行い、複雑な情報検索と多段階の推論を統合して、現実世界の問題を解決する。
この能力を長期のタスクで維持するためには、トレーニングと推論の両方において信頼性の高い検証が重要である。
既存のパラダイムにおける大きなボトルネックは、QAデータ合成、軌道構築、テスト時間スケーリングにおける明確な検証メカニズムの欠如にある。
各段階で導入されたエラーは下流に伝播し、全体のエージェント性能を低下させる。
この問題を解決するために,検証中心のフレームワーク設計に最適化されたディープリサーチエージェントであるMarco DeepResearchを紹介した。 \textbf{(1)~QAデータ合成:} グラフベースおよびエージェントベースのQA合成に検証機構を導入し,回答がユニークで正しいことを保証しながら質問の難易度を制御する; \textbf{(2)~Trajectory Construction:} 検証駆動トラジェクトリ合成法を設計し,トレーニングトラジェクトリに明示的な検証パターンを注入する; \textbf{(3)~Test-time Scaling:} マルコディープリサーチ自体を推論時に検証器として使用し,課題に対する効果的な性能向上を図る。
提案するMarco DeepResearchエージェントは,BrowseCompやBrowseComp-ZHなど,最も困難なベンチマークにおいて,8Bスケールのディープリサーチエージェントよりも優れていた。
重要なことに、最大600件のツールコールの予算の下で、Marco DeepResearchはTongyi DeepResearch-30Bなど、30B規模のエージェントを抜いたり、接近させたりさえしている。
関連論文リスト
- Search More, Think Less: Rethinking Long-Horizon Agentic Search for Efficiency and Generalization [64.61432234404276]
emphSearch More, Think Less (SMTL) は、効率性と一般化の両方をターゲットとした長期エージェント検索のためのフレームワークである。
我々は、教師付き微調整と強化学習を用いてエンドツーエンドエージェントを訓練し、ベンチマーク全体にわたって、強固で頻繁なパフォーマンスを実現する。
論文 参考訳(メタデータ) (2026-02-26T06:46:41Z) - DeepSearchQA: Bridging the Comprehensiveness Gap for Deep Research Agents [10.197402632091551]
DeepSearchQAは、難しい多段階情報検索タスクのエージェントを評価する900プロンプトのベンチマークである。
このデータセットは、エージェントが複雑な検索計画を実行し、完全な回答リストを生成する能力を評価するように設計されている。
論文 参考訳(メタデータ) (2026-01-28T19:20:47Z) - Yunque DeepResearch Technical Report [12.184074646161223]
Yunque DeepResearchは階層的でモジュール的で堅牢なディープリサーチフレームワークである。
さまざまなエージェントによるディープリサーチベンチマークで最先端のパフォーマンスを実現している。
私たちは、コミュニティに力を与えるためのフレームワーク、再現可能な実装、そしてアプリケーションケースをオープンソースにしています。
論文 参考訳(メタデータ) (2026-01-27T13:10:00Z) - SAGE: Steerable Agentic Data Generation for Deep Search with Execution Feedback [68.60326181052658]
本稿では,高品質で難易度の高い探索問合せを自動生成するエージェントパイプラインを提案する。
我々のパイプラインであるSAGEは、QAペアを提案するデータジェネレータと、生成された質問を解決するための検索エージェントで構成される。
我々の本質的な評価は、SAGEが様々な推論戦略を必要とする質問を生成する一方で、生成したデータの正確性や難易度を著しく高めていることを示している。
論文 参考訳(メタデータ) (2026-01-26T06:37:56Z) - FlashResearch: Real-time Agent Orchestration for Efficient Deep Research [62.03819662340356]
FlashResearchは効率的なディープリサーチのための新しいフレームワークです。
シーケンシャル処理を並列なランタイムオーケストレーションに変換する。
同等のクオリティを維持しつつ、最大5倍のスピードアップを提供できる。
論文 参考訳(メタデータ) (2025-10-02T00:15:39Z) - Fathom-DeepResearch: Unlocking Long Horizon Information Retrieval and Synthesis for SLMs [7.3517692707289415]
本稿では2つの特殊モデルからなるエージェントシステムであるFathom-DeepResearchを紹介する。
ひとつは、ライブWeb検索とターゲットWebページクエリによるエビデンスベースの調査に最適化された、DeepSearchモデルであるFathom-Search-4Bである。
2つ目は、Qwen3-4Bから訓練されたFathom-Synthesizer-4Bである。
論文 参考訳(メタデータ) (2025-09-28T22:58:11Z) - Open Data Synthesis For Deep Research [17.22470203913576]
我々は、階層的制約満足度問題として検証可能な回答でDeep Researchタスクを定式化する。
既存のベンチマーク(Natural Questions、HotpotQAなど)は、この複雑さを捉えていない。
スケーラブルでスケーラブルな複雑なDeep ResearchタスクであるInfoSeekを紹介します。
論文 参考訳(メタデータ) (2025-08-30T06:02:56Z) - Benchmarking Deep Search over Heterogeneous Enterprise Data [73.55304268238474]
検索強化生成(RAG)の形式を評価するための新しいベンチマークを提案する。
RAGは、多種多様な、しかし関連するソースに対して、ソースを意識したマルチホップ推論を必要とする。
製品計画、開発、サポートステージをまたいだビジネスをシミュレートする合成データパイプラインを使用して構築します。
論文 参考訳(メタデータ) (2025-06-29T08:34:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。