論文の概要: DeepDive: Advancing Deep Search Agents with Knowledge Graphs and Multi-Turn RL
- arxiv url: http://arxiv.org/abs/2509.10446v1
- Date: Fri, 12 Sep 2025 17:52:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:08.191566
- Title: DeepDive: Advancing Deep Search Agents with Knowledge Graphs and Multi-Turn RL
- Title(参考訳): DeepDive:知識グラフとマルチTurn RLによるディープ検索エージェントの強化
- Authors: Rui Lu, Zhenyu Hou, Zihan Wang, Hanchen Zhang, Xiao Liu, Yujiang Li, Shi Feng, Jie Tang, Yuxiao Dong,
- Abstract要約: 我々は、ディープサーチエージェントを進化させるためにDeepDiveを提示する。
オープンな知識グラフから複雑で難解な質問を自動的に合成する戦略を提案する。
実験によると、DeepDive-32BはBrowseCompで新たなオープンソース競争結果を達成する。
- 参考スコア(独自算出の注目度): 60.47878242100153
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Augmenting large language models (LLMs) with browsing tools substantially improves their potential as deep search agents to solve complex, real-world tasks. Yet, open LLMs still perform poorly in such settings due to limited long-horizon reasoning capacity with browsing tools and the lack of sufficiently difficult supervised data. To address these challenges, we present DeepDive to advance deep search agents. First, we propose a strategy to automatically synthesize complex, difficult, and hard-to-find questions from open knowledge graphs. Second, we apply end-to-end multi-turn reinforcement learning (RL) to enhance LLMs' long-horizon reasoning with deep search. Experiments show that DeepDive-32B achieves a new open-source competitive result on BrowseComp, outperforming WebSailor, DeepSeek-R1-Browse, and Search-o1. We demonstrate that multi-turn RL training improves deep search ability and significantly contributes to the performance improvements across multiple benchmarks. We observe that DeepDive enables test-time scaling of tool calls and parallel sampling. All datasets, models, and code are publicly available at https://github.com/THUDM/DeepDive.
- Abstract(参考訳): 大規模言語モデル(LLM)をブラウジングツールで拡張することで、複雑な現実世界のタスクを解くディープサーチエージェントとしての可能性を大幅に改善する。
しかし、オープンLLMはブラウジングツールによる長距離推論能力の制限や、教師付きデータの不足のため、そのような環境では依然として性能が劣っている。
これらの課題に対処するため、我々はDeepDiveを高度な検索エージェントに提示する。
まず,オープン知識グラフから複雑で難解な質問を自動的に合成する手法を提案する。
第2に、LLMの長距離推論を深層探索により強化するために、エンドツーエンドのマルチターン強化学習(RL)を適用する。
実験によると、DeepDive-32Bは、WebSailor、DeepSeek-R1-Browse、Search-o1を上回り、BrowseCompの新たなオープンソース競争結果を達成した。
マルチターンRLトレーニングはディープサーチ能力を向上し,複数のベンチマークにおける性能向上に大きく貢献することを示す。
我々はDeepDiveがツールコールと並列サンプリングのテスト時間スケーリングを可能にすることを観察した。
すべてのデータセット、モデル、コードはhttps://github.com/THUDM/DeepDive.comで公開されている。
関連論文リスト
- Beyond Ten Turns: Unlocking Long-Horizon Agentic Search with Large-Scale Asynchronous RL [22.8456317506762]
ASearcherは、検索エージェントの大規模RLトレーニングのためのオープンソースプロジェクトである。
ASearcher-Web-QwQは、xBenchで42.1、GAIAで52.8のAvg@4スコアを獲得し、既存のオープンソース32Bエージェントを上回っている。
論文 参考訳(メタデータ) (2025-08-11T13:36:57Z) - WebWatcher: Breaking New Frontier of Vision-Language Deep Research Agent [68.3311163530321]
Deep ResearchのようなWebエージェントは認知能力を示しており、高度に難解な情報検索問題を解決することができる。
このようなエージェントは知覚、論理、知識においてより強力な推論能力を必要とするため、マルチモーダルディープリサーチは非常に困難である。
本稿では,視覚言語推論機能を備えた多モードディープリサーチエージェントであるWebWatcherを紹介する。
論文 参考訳(メタデータ) (2025-08-07T18:03:50Z) - StepSearch: Igniting LLMs Search Ability via Step-Wise Proximal Policy Optimization [14.931231544839687]
StepSearchは、ステップワイドなポリシー最適化手法でトレーニングされたLLMを検索するためのフレームワークである。
情報ゲインと冗長性に基づく、より豊かでより詳細な中間探索報酬とトークンレベルのプロセス監視で構成されている。
標準的なマルチホップQAベンチマークでは、グローバルリワードベースラインをはるかに上回り、3Bモデルと7Bモデルの11.2%と4.2%の絶対的な改善を達成した。
論文 参考訳(メタデータ) (2025-05-21T05:01:31Z) - R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。