論文の概要: OffSeeker: Online Reinforcement Learning Is Not All You Need for Deep Research Agents
- arxiv url: http://arxiv.org/abs/2601.18467v1
- Date: Mon, 26 Jan 2026 13:13:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.839404
- Title: OffSeeker: Online Reinforcement Learning Is Not All You Need for Deep Research Agents
- Title(参考訳): OffSeeker:オンライン強化学習は、ディープ・リサーチ・エージェントに必要なすべてではない
- Authors: Yuhang Zhou, Kai Zheng, Qiguang Chen, Mengkang Hu, Qingfeng Sun, Can Xu, Jingjing Chen,
- Abstract要約: 最先端のパフォーマンスは通常、オンライン強化学習(RL)に依存します。
オフライントレーニングを効果的に行うために設計された、完全なオープンソーススイートを紹介します。
当社の中核的なコントリビューションはDeepForgeです。DeepForgeは、大量の前処理なしで大規模な研究クエリを生成する、使えるタスク合成フレームワークです。
- 参考スコア(独自算出の注目度): 68.79728889531806
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep research agents have shown remarkable potential in handling long-horizon tasks. However, state-of-the-art performance typically relies on online reinforcement learning (RL), which is financially expensive due to extensive API calls. While offline training offers a more efficient alternative, its progress is hindered by the scarcity of high-quality research trajectories. In this paper, we demonstrate that expensive online reinforcement learning is not all you need to build powerful research agents. To bridge this gap, we introduce a fully open-source suite designed for effective offline training. Our core contributions include DeepForge, a ready-to-use task synthesis framework that generates large-scale research queries without heavy preprocessing; and a curated collection of 66k QA pairs, 33k SFT trajectories, and 21k DPO pairs. Leveraging these resources, we train OffSeeker (8B), a model developed entirely offline. Extensive evaluations across six benchmarks show that OffSeeker not only leads among similar-sized agents but also remains competitive with 30B-parameter systems trained via heavy online RL.
- Abstract(参考訳): ディープ・リサーチ・エージェントは、長期的タスクの処理において顕著な可能性を示してきた。
しかし、最先端のパフォーマンスは一般的に、大規模なAPI呼び出しのために費用がかかるオンライン強化学習(RL)に依存している。
オフライントレーニングは、より効率的な代替手段を提供するが、その進歩は、高品質な研究軌道の不足によって妨げられている。
本稿では,高額なオンライン強化学習が,強力な研究エージェントの構築に必要なものだけではないことを実証する。
このギャップを埋めるために、効果的なオフライントレーニング用に設計された完全なオープンソーススイートを紹介します。
当社のコアコントリビューションには、大量の前処理なしで大規模な研究クエリを生成するDeepForgeや、66kのQAペア、33kのSFTトラジェクトリ、21kのDPOペアのキュレートされたコレクションが含まれています。
これらのリソースを活用して、完全にオフラインで開発されたモデルであるOffSeeker(8B)をトレーニングします。
6つのベンチマークの大規模な評価は、OffSeekerが類似サイズのエージェントをリードするだけでなく、重いオンラインRLでトレーニングされた30Bパラメータシステムとの競争も継続していることを示している。
関連論文リスト
- Step-DeepResearch Technical Report [90.50586290399683]
コスト効率のよいエンドツーエンドエージェントである Step-DeepResearch を紹介する。
我々は、計画とレポート作成を強化するために、アトミック能力に基づくデータ合成戦略を提案する。
中国における評価ギャップを埋めるため,現実的な深層研究シナリオのためのADR-Benchを構築した。
論文 参考訳(メタデータ) (2025-12-23T16:32:27Z) - DeepDive: Advancing Deep Search Agents with Knowledge Graphs and Multi-Turn RL [60.47878242100153]
我々は、ディープサーチエージェントを進化させるためにDeepDiveを提示する。
オープンな知識グラフから複雑で難解な質問を自動的に合成する戦略を提案する。
深層探索によるLLMの長距離推論を強化するために, エンドツーエンドのマルチターン強化学習を適用した。
論文 参考訳(メタデータ) (2025-09-12T17:52:35Z) - DeepResearcher: Scaling Deep Research via Reinforcement Learning in Real-world Environments [20.498100965239818]
我々は、LLMベースのディープリサーチエージェントのエンドツーエンドトレーニングのための、初の総合的なフレームワークであるDeepResearcherを紹介する。
固定コーパス内にすべての必要な情報が存在すると仮定するRAGベースのアプローチとは異なり、我々の手法はオープンウェブのノイズ、非構造化、動的性質をナビゲートするエージェントを訓練する。
オープンドメインの研究タスクに関する大規模な実験は、DeepResearcherがエンジニアリングベースの素早いベースラインよりも最大28.9ポイントの大幅な改善を達成していることを示している。
論文 参考訳(メタデータ) (2025-04-04T04:41:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。