論文の概要: Argus: Evidence Assembly for Scalable Deep Research Agents
- arxiv url: http://arxiv.org/abs/2605.16217v2
- Date: Tue, 19 May 2026 16:32:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:08.452256
- Title: Argus: Evidence Assembly for Scalable Deep Research Agents
- Title(参考訳): Argus: スケーラブルなディープリサーチエージェントのエビデンスアセンブリ
- Authors: Zhen Zhang, Liangcai Su, Zhuo Chen, Xiang Lin, Haotian Xu, Simon Shaolei Du, Kaiyu Yang, Bo An, Lidong Bing, Xinyu Wang,
- Abstract要約: 本研究では,探索者とナビゲータが協力して,補完的な証拠からジグソーを組み立てるシステムを提案する。
我々は、強化学習でナビゲータを訓練し、検証、ディスパッチ、合成を行いながら、検索者が標準のReActエージェントのままでいられるように独立に訓練する。
サーチとナビゲータは35B-A3B MoEのバックボーン上に構築されており、Argusは1つのサーチと12.7ポイントの並列サーチと8つのベンチマークで5.5ポイントを獲得している。
- 参考スコア(独自算出の注目度): 74.04848873346145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep research agents have achieved remarkable progress on complex information seeking tasks. Even long ReAct style rollouts explore only a single trajectory, while recent state of the art systems scale inference time compute via parallel search and aggregation. Yet deep research answers are composed of complementary pieces of evidence, which parallel rollouts often duplicate rather than complete, yielding diminishing returns while pushing the aggregation context toward the model's limit. We propose Argus, an agentic system in which a Searcher and a Navigator cooperate to treat deep research as assembling a jigsaw from complementary evidence pieces, rather than brute forcing the whole answer in parallel. The Searcher collects evidence traces for a given sub-query through ReAct-style interaction. The Navigator maintains a shared evidence graph, verifying which pieces are still missing, dispatching Searchers to gather them, and reasoning over the completed graph to produce a source-traced final answer. We train the Navigator with reinforcement learning to verify, dispatch, and synthesize, while independently training the Searcher to remain a standard ReAct agent. The resulting Navigator supports rollouts with a single Searcher or many in parallel without retraining. With both Searcher and Navigator built on a 35B-A3B MoE backbone, Argus gains 5.5 points with a single Searcher and 12.7 points with 8 parallel Searchers, averaged over eight benchmarks. With 64 Searchers it reaches 86.2 on BrowseComp, surpassing every proprietary agent we benchmark, while the Navigator's reasoning context stays under 21.5K tokens.
- Abstract(参考訳): ディープリサーチエージェントは複雑な情報探索タスクにおいて顕著な進歩を遂げた。
長いReActスタイルのロールアウトでさえ1つの軌道のみを探索する一方で、最近の最先端システムは並列検索とアグリゲーションによる推論時間計算をスケールしている。
しかし、深い研究回答は相補的な証拠で構成されており、これは平行ロールアウトが完全ではなく重複することが多く、モデルの限界に向かって集約コンテキストを押し上げながらリターンを減少させる。
本稿では,探索者とナビゲータが協調して深層調査を行うエージェントシステムであるArgusを提案する。
Searcherは、ReActスタイルのインタラクションを通じて、与えられたサブクエリのエビデンストレースを収集する。
Navigatorは、共有エビデンスグラフを保持し、どのピースがまだ欠落しているかを検証し、検索者にそれらを収集させ、完了したグラフを推論してソーストレースされた最終回答を生成する。
我々は、強化学習でナビゲータを訓練し、検証、ディスパッチ、合成を行いながら、検索者が標準のReActエージェントのままでいられるように独立に訓練する。
その結果、Navigatorは1つのSearcherまたは複数の並列的なロールアウトを、再トレーニングなしでサポートする。
サーチとナビゲータは35B-A3B MoEのバックボーン上に構築されており、Argusは1つのサーチと12.7ポイントの並列サーチと8つのベンチマークで5.5ポイントを獲得している。
64 SearchersではBrowseCompで86.2に達し、ベンチマークしたすべてのプロプライエタリエージェントを上回り、Navigatorの推論コンテキストは21.5Kトークン以下である。
関連論文リスト
- PRAISE: Prefix-Based Rollout Reuse in Agentic Search Training [28.912613644535668]
本稿では,エージェント検索訓練におけるデータ効率向上のためのフレームワークPRAISEを提案する。
本手法は,検索ポリシー学習とプレフィックス応答評価の両方に,単一の共有モデルを用いる。
マルチホップQAベンチマークの実験では、PRAISEは強いベースラインよりも一貫してパフォーマンスを改善している。
論文 参考訳(メタデータ) (2026-04-04T10:23:46Z) - OpenResearcher: A Fully Open Pipeline for Long-Horizon Deep Research Trajectory Synthesis [63.8655724265611]
深層研究エージェントの訓練には、探索、証拠収集、多段階推論をインターリーブする長い水平軌道が必要である。
既存のデータ収集パイプラインは、一般的にプロプライエタリなWeb APIに依存しており、大規模な軌道合成をコストが高く、不安定で、再現が難しい。
再生可能なパイプラインであるOpenResearcherは,複数ターン軌道合成から1回のコーパスブートストラップを分離する。
論文 参考訳(メタデータ) (2026-03-17T20:10:12Z) - Deep Researcher with Sequential Plan Reflection and Candidates Crossover (Deep Researcher Reflect Evolve) [0.0]
本稿では、複雑なPhDレベルのトピックに関する詳細な研究レポートを作成するために設計された、新しいDeep Researcherアーキテクチャを提案する。
本システムでは,リフレクションによる逐次研究計画修正と候補クロスオーバーアルゴリズムという,2つの重要なイノベーションを活用している。
我々の建築は46.21点を達成し、先進的な深層研究エージェントを超越して優れた性能を示した。
論文 参考訳(メタデータ) (2026-01-28T18:45:39Z) - Thinking Forward and Backward: Multi-Objective Reinforcement Learning for Retrieval-Augmented Reasoning [137.33138614095435]
Retrieval-augmented Generation (RAG) は、大規模言語モデルにおける幻覚の緩和に有効であることが証明されている。
近年、検索に基づく対話をRAGに組み込んで、リアルタイム検索による反復推論を可能にしている。
提案するBi-RARは,各中間ステップを前方方向と後方方向の両方で共同で評価する,新たな検索拡張推論フレームワークである。
論文 参考訳(メタデータ) (2025-11-12T08:29:39Z) - DeepDive: Advancing Deep Search Agents with Knowledge Graphs and Multi-Turn RL [60.47878242100153]
我々は、ディープサーチエージェントを進化させるためにDeepDiveを提示する。
オープンな知識グラフから複雑で難解な質問を自動的に合成する戦略を提案する。
深層探索によるLLMの長距離推論を強化するために, エンドツーエンドのマルチターン強化学習を適用した。
論文 参考訳(メタデータ) (2025-09-12T17:52:35Z) - ParallelSearch: Train your LLMs to Decompose Query and Search Sub-queries in Parallel with Reinforcement Learning [20.11646932754985]
Reasoning-augmented search agent as Search-R1は、外部知識ソースからの多段階情報検索において顕著な能力を示す。
既存のアプローチは、本質的に並列化可能で論理的に独立な比較を扱う場合でも、検索クエリを厳格に処理する。
並列化可能なクエリ構造を認識し,複数の検索操作を同時に実行する,大規模言語モデルを活用した新しい強化学習フレームワークであるParallelSearchを提案する。
論文 参考訳(メタデータ) (2025-08-12T19:38:21Z) - BrowseComp-Plus: A More Fair and Transparent Evaluation Benchmark of Deep-Research Agent [74.10138164281618]
BrowseComp-Plus(BrowseComp-Plus)は、BrowseCompから派生したベンチマークである。
このベンチマークは、ディープリサーチエージェントと検索方法の総合的な評価とアンタングル解析を可能にする。
論文 参考訳(メタデータ) (2025-08-08T17:55:11Z) - Benchmarking Deep Search over Heterogeneous Enterprise Data [73.55304268238474]
検索強化生成(RAG)の形式を評価するための新しいベンチマークを提案する。
RAGは、多種多様な、しかし関連するソースに対して、ソースを意識したマルチホップ推論を必要とする。
製品計画、開発、サポートステージをまたいだビジネスをシミュレートする合成データパイプラインを使用して構築します。
論文 参考訳(メタデータ) (2025-06-29T08:34:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。