論文の概要: DeepDive: Advancing Deep Search Agents with Knowledge Graphs and Multi-Turn RL
- arxiv url: http://arxiv.org/abs/2509.10446v2
- Date: Tue, 14 Oct 2025 13:54:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 14:23:56.837378
- Title: DeepDive: Advancing Deep Search Agents with Knowledge Graphs and Multi-Turn RL
- Title(参考訳): DeepDive:知識グラフとマルチTurn RLによるディープ検索エージェントの強化
- Authors: Rui Lu, Zhenyu Hou, Zihan Wang, Hanchen Zhang, Xiao Liu, Yujiang Li, Shi Feng, Jie Tang, Yuxiao Dong,
- Abstract要約: 我々は、ディープサーチエージェントを進化させるためにDeepDiveを提示する。
オープンな知識グラフから複雑で難解な質問を自動的に合成する戦略を提案する。
深層探索によるLLMの長距離推論を強化するために, エンドツーエンドのマルチターン強化学習を適用した。
- 参考スコア(独自算出の注目度): 60.47878242100153
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Augmenting large language models (LLMs) with browsing tools substantially improves their potential as deep search agents to solve complex, real-world tasks. Yet, open LLMs still perform poorly in such settings due to limited long-horizon reasoning capacity with browsing tools and the lack of sufficiently difficult supervised data. To address these challenges, we present DeepDive to advance deep search agents. First, we propose a strategy to automatically synthesize complex, difficult, and hard-to-find questions from open knowledge graphs. Second, we apply end-to-end multi-turn reinforcement learning (RL) to enhance LLMs' long-horizon reasoning with deep search. To encourage diversity and reduce redundancy, we design a redundancy penalty that discourages repeated similar queries. Experiments show that DeepDive-32B achieves a new open-source competitive result on BrowseComp, outperforming WebSailor, DeepSeek-R1-Browse, and Search-o1. We demonstrate that multi-turn RL training improves deep search ability and significantly contributes to the performance improvements across multiple benchmarks. We observe that DeepDive enables test-time scaling of tool calls and parallel sampling. All datasets, models, and code are publicly available at https://github.com/THUDM/DeepDive.
- Abstract(参考訳): 大規模言語モデル(LLM)をブラウジングツールで拡張することで、複雑な現実世界のタスクを解くディープサーチエージェントとしての可能性を大幅に改善する。
しかし、オープンLLMはブラウジングツールによる長距離推論能力の制限や、教師付きデータの不足のため、そのような環境では依然として性能が劣っている。
これらの課題に対処するため、我々はDeepDiveを高度な検索エージェントに提示する。
まず,オープン知識グラフから複雑で難解な質問を自動的に合成する手法を提案する。
第2に、LLMの長距離推論を深層探索により強化するために、エンドツーエンドのマルチターン強化学習(RL)を適用する。
多様性の促進と冗長性の低減を目的として,類似クエリの繰り返しを回避できる冗長性ペナルティを設計する。
実験によると、DeepDive-32Bは、WebSailor、DeepSeek-R1-Browse、Search-o1を上回り、BrowseCompの新たなオープンソース競争結果を達成した。
マルチターンRLトレーニングはディープサーチ能力を向上し,複数のベンチマークにおける性能向上に大きく貢献することを示す。
我々はDeepDiveがツールコールと並列サンプリングのテスト時間スケーリングを可能にすることを観察した。
すべてのデータセット、モデル、コードはhttps://github.com/THUDM/DeepDive.comで公開されている。
関連論文リスト
- IntentRL: Training Proactive User-intent Agents for Open-ended Deep Research via Reinforcement Learning [54.21689544323704]
Deep Research (DR)エージェントは、パラメトリック知識を超えてLarge Language Models (LLM)を拡張する。
リアルタイムの会話アシスタントとは異なり、DRは計算に高価で時間を要する。
IntentRLは、長期研究を始める前に、潜在ユーザ意図を明らかにするためにプロアクティブエージェントを訓練するフレームワークである。
論文 参考訳(メタデータ) (2026-02-03T12:43:09Z) - Search Self-play: Pushing the Frontier of Agent Capability without Supervision [14.889394507446477]
本稿では,ディープサーチエージェントのためのセルフプレイトレーニングを提案する。
探索セルフプレイ(SSP)ゲームにおいて、提案者と解決者は、競争と協力の両面からエージェント能力を共同開発する。
SSPは、様々なベンチマークにおいて、いかなる監督も受けずに、検索エージェントのパフォーマンスを均一に向上させることができる。
論文 参考訳(メタデータ) (2025-10-21T17:19:35Z) - DeepMMSearch-R1: Empowering Multimodal LLMs in Multimodal Web Search [61.77858432092777]
DeepMMSearch-R1は,オンデマンドでマルチターンWeb検索が可能な,最初のマルチモーダルな大規模言語モデルである。
DeepMMSearch-R1は、画像検索をより効果的にするために、入力画像の関連する作物に基づいてWeb検索を開始することができる。
我々は、アプローチの優位性を実証するために、知識集約型ベンチマークを幅広く実施する。
論文 参考訳(メタデータ) (2025-10-14T17:59:58Z) - Fathom-DeepResearch: Unlocking Long Horizon Information Retrieval and Synthesis for SLMs [7.3517692707289415]
本稿では2つの特殊モデルからなるエージェントシステムであるFathom-DeepResearchを紹介する。
ひとつは、ライブWeb検索とターゲットWebページクエリによるエビデンスベースの調査に最適化された、DeepSearchモデルであるFathom-Search-4Bである。
2つ目は、Qwen3-4Bから訓練されたFathom-Synthesizer-4Bである。
論文 参考訳(メタデータ) (2025-09-28T22:58:11Z) - Beyond Ten Turns: Unlocking Long-Horizon Agentic Search with Large-Scale Asynchronous RL [22.8456317506762]
ASearcherは、検索エージェントの大規模RLトレーニングのためのオープンソースプロジェクトである。
ASearcher-Web-QwQは、xBenchで42.1、GAIAで52.8のAvg@4スコアを獲得し、既存のオープンソース32Bエージェントを上回っている。
論文 参考訳(メタデータ) (2025-08-11T13:36:57Z) - WebWatcher: Breaking New Frontier of Vision-Language Deep Research Agent [68.3311163530321]
Deep ResearchのようなWebエージェントは認知能力を示しており、高度に難解な情報検索問題を解決することができる。
このようなエージェントは知覚、論理、知識においてより強力な推論能力を必要とするため、マルチモーダルディープリサーチは非常に困難である。
本稿では,視覚言語推論機能を備えた多モードディープリサーチエージェントであるWebWatcherを紹介する。
論文 参考訳(メタデータ) (2025-08-07T18:03:50Z) - DeepSieve: Information Sieving via LLM-as-a-Knowledge-Router [57.28685457991806]
DeepSieveはエージェントRAGフレームワークで、LLM-as-a-knowledge-routerを介して情報を収集する。
我々の設計はモジュール性、透明性、適応性を重視しており、エージェントシステム設計の最近の進歩を活用している。
論文 参考訳(メタデータ) (2025-07-29T17:55:23Z) - DynaSearcher: Dynamic Knowledge Graph Augmented Search Agent via Multi-Reward Reinforcement Learning [5.280613615397194]
DynaSearcherは動的知識グラフとマルチリワード強化学習(RL)によって強化された革新的な検索エージェントである
検索精度, 効率, 応答品質などの学習目標を詳細に制御するために, マルチリワード RL フレームワークを用いる。
実験により,提案手法は6つのマルチホップ質問応答データセットに対して,最先端の回答精度を実現することを示す。
論文 参考訳(メタデータ) (2025-07-23T09:58:31Z) - DeepDiver: Adaptive Search Intensity Scaling via Open-Web Reinforcement Learning [73.68685269970844]
WebPuzzleはトレーニングと275サンプルテストベンチマークで、ライブインターネット上での情報検索を評価する。
我々は、検索強度スケーリング(SIS)を育成する強化学習フレームワークであるDeepDiverを開発した。
我々は,DeepDiverのカリキュラムをコールドスタートSFTからよく設計されたRLプロシージャに詳述し,その探索方針がクローズドドクエリからロングフォームライティングなどのオープンエンドジェネレーションへと一般化したことを示す。
論文 参考訳(メタデータ) (2025-05-30T08:15:39Z) - StepSearch: Igniting LLMs Search Ability via Step-Wise Proximal Policy Optimization [14.931231544839687]
StepSearchは、ステップワイドなポリシー最適化手法でトレーニングされたLLMを検索するためのフレームワークである。
情報ゲインと冗長性に基づく、より豊かでより詳細な中間探索報酬とトークンレベルのプロセス監視で構成されている。
標準的なマルチホップQAベンチマークでは、グローバルリワードベースラインをはるかに上回り、3Bモデルと7Bモデルの11.2%と4.2%の絶対的な改善を達成した。
論文 参考訳(メタデータ) (2025-05-21T05:01:31Z) - R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。