論文の概要: DeepDiver: Adaptive Search Intensity Scaling via Open-Web Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.24332v2
- Date: Mon, 10 Nov 2025 13:43:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 19:11:14.178339
- Title: DeepDiver: Adaptive Search Intensity Scaling via Open-Web Reinforcement Learning
- Title(参考訳): DeepDiver: オープンWeb強化学習による適応型検索インテンシティスケーリング
- Authors: Wenxuan Shi, Haochen Tan, Chuqiao Kuang, Xiaoguang Li, Xiaozhe Ren, Chen Zhang, Hanting Chen, Yasheng Wang, Lu Hou, Lifeng Shang,
- Abstract要約: WebPuzzleはトレーニングと275サンプルテストベンチマークで、ライブインターネット上での情報検索を評価する。
我々は、検索強度スケーリング(SIS)を育成する強化学習フレームワークであるDeepDiverを開発した。
我々は,DeepDiverのカリキュラムをコールドスタートSFTからよく設計されたRLプロシージャに詳述し,その探索方針がクローズドドクエリからロングフォームライティングなどのオープンエンドジェネレーションへと一般化したことを示す。
- 参考スコア(独自算出の注目度): 73.68685269970844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Information seeking demands iterative evidence gathering and reflective reasoning, yet large language models (LLMs) still struggle with it in open-web question answering. Existing prompting and supervised fine-tuning (SFT) methods remain fixed by prompt rules or training corpora, and are usually benchmarked only on well-structured wiki sources, limiting real-world adaptability. We introduce WebPuzzle, a 24k-sample training and 275-sample test benchmark that evaluates information seeking on the live internet, across both wiki and open-domain queries. Leveraging 7k WebPuzzle instances, we develop DeepDiver, a reinforcement-learning (RL) framework that cultivates Search Intensity Scaling (SIS)-an emergent ability to escalate search frequency and depth instead of settling on overconfident, under-evidenced answers. With SIS, Qwen2.5-7B-Instruct and Pangu-7B-Reasoner attain performance on real-web tasks comparable to the 671B-parameter DeepSeek-R1. We detail DeepDiver's curriculum from cold-start SFT to a well designed RL procedure, and show that its seeking policy generalized from closed-ended queries to open-ended generation such as long-form writing. Our results advance adaptive information seeking in LLMs and provide a rigorous benchmark for future work.
- Abstract(参考訳): 情報検索は反復的証拠収集と反省的推論を要求するが、大きな言語モデル(LLM)は、オープンウェブの質問に答えることに苦慮している。
既存のプロンプトおよび教師付き微調整(SFT)メソッドは、プロンプトルールやトレーニングコーパスによって固定され、通常、よく構造化されたwikiソースでのみベンチマークされ、現実の適応性を制限する。
我々は,24kサンプルのトレーニングと275サンプルのテストベンチマークであるWebPuzzleを紹介した。
7k WebPuzzleインスタンスを活用することで、検索強度スケーリング(SIS)を育成する強化学習(RL)フレームワークであるDeepDiverを開発する。
SISでは、Qwen2.5-7B-InstructとPangu-7B-Reasonerが、671BのDeepSeek-R1に匹敵する実際のウェブタスクでパフォーマンスを達成した。
我々は,DeepDiverのカリキュラムをコールドスタートSFTからよく設計されたRLプロシージャに詳述し,その探索方針がクローズドドクエリからロングフォームライティングなどのオープンエンドジェネレーションへと一般化したことを示す。
本研究は,LLMにおける適応情報検索を推し進め,今後の研究のための厳密なベンチマークを提供する。
関連論文リスト
- WebSailor: Navigating Super-human Reasoning for Web Agent [72.5231321118689]
WebSailorは、この重要な機能を組み込むように設計された、完全なポストトレーニング方法論である。
我々のアプローチは、構造化サンプリングと情報難読化によって、新しい、不確実なタスクを生成することである。
WebSailorは複雑な情報検索タスクにおいて、すべてのオープンソースエージェントを著しく上回っている。
論文 参考訳(メタデータ) (2025-07-03T12:59:07Z) - SimpleDeepSearcher: Deep Information Seeking via Web-Powered Reasoning Trajectory Synthesis [89.99161034065614]
Retrieval-augmented Generation (RAG) システムは複雑なディープ検索シナリオにおいて高度な大規模言語モデル(LLM)を持つ。
既存のアプローチでは、高品質なトレーニングトラジェクトリが欠如し、分散ミスマッチに苦しむ、重要な制限に直面しています。
本稿では,複雑なトレーニングパラダイムではなく,戦略的データエンジニアリングによるギャップを埋めるフレームワークであるSimpleDeepSearcherを紹介する。
論文 参考訳(メタデータ) (2025-05-22T16:05:02Z) - InfoDeepSeek: Benchmarking Agentic Information Seeking for Retrieval-Augmented Generation [63.55258191625131]
InfoDeepSeekは、現実世界の動的Web環境でエージェント情報を求めるための新しいベンチマークである。
本稿では,決定性,難易度,多様性の基準を満たす課題クエリを構築するための体系的手法を提案する。
本研究では,情報探索結果の正確性,有用性,コンパクト性に関する詳細な指標を含む,動的エージェント情報探索に適した最初の評価フレームワークを開発する。
論文 参考訳(メタデータ) (2025-05-21T14:44:40Z) - Scent of Knowledge: Optimizing Search-Enhanced Reasoning with Information Foraging [7.047640531842663]
InForageは、動的情報探索プロセスとして検索強化推論を形式化する強化学習フレームワークである。
我々は,複雑な実世界のWebタスクに対する反復探索と推論のトラジェクトリをキャプチャするヒューマンガイドデータセットを構築した。
これらの結果は、堅牢で適応的で効率的な推論エージェントの構築におけるInForageの有効性を強調している。
論文 参考訳(メタデータ) (2025-05-14T12:13:38Z) - WebThinker: Empowering Large Reasoning Models with Deep Research Capability [60.81964498221952]
WebThinkerは、大規模な推論モデルに、Webを自律的に検索し、Webページをナビゲートし、推論プロセス中に研究レポートをドラフトする権限を与えるディープリサーチエージェントである。
また、textbf Autonomous Think-Search-and-Draft戦略を採用しており、モデルがシームレスに推論、情報収集、レポート作成をリアルタイムで行うことができる。
我々のアプローチは複雑なシナリオにおけるLEMの信頼性と適用性を高め、より有能で多目的な深層研究システムへの道を開く。
論文 参考訳(メタデータ) (2025-04-30T16:25:25Z) - DeepResearcher: Scaling Deep Research via Reinforcement Learning in Real-world Environments [20.498100965239818]
我々は、LLMベースのディープリサーチエージェントのエンドツーエンドトレーニングのための、初の総合的なフレームワークであるDeepResearcherを紹介する。
固定コーパス内にすべての必要な情報が存在すると仮定するRAGベースのアプローチとは異なり、我々の手法はオープンウェブのノイズ、非構造化、動的性質をナビゲートするエージェントを訓練する。
オープンドメインの研究タスクに関する大規模な実験は、DeepResearcherがエンジニアリングベースの素早いベースラインよりも最大28.9ポイントの大幅な改善を達成していることを示している。
論文 参考訳(メタデータ) (2025-04-04T04:41:28Z) - Generative Pre-trained Ranking Model with Over-parameterization at Web-Scale (Extended Abstract) [73.57710917145212]
ランク付け学習は、入力クエリに基づいて関連するWebページを優先順位付けするために、Web検索で広く使われている。
本稿では,これらの課題に対処するために,経験的 UlineSemi-uline Supervised ulinePre-trained (GS2P) モデルを提案する。
我々は,公開データセットと大規模検索エンジンから収集した実世界のデータセットの両方に対して,大規模なオフライン実験を行う。
論文 参考訳(メタデータ) (2024-09-25T03:39:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。