論文の概要: Pangu DeepDiver: Adaptive Search Intensity Scaling via Open-Web Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.24332v1
- Date: Fri, 30 May 2025 08:15:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.845582
- Title: Pangu DeepDiver: Adaptive Search Intensity Scaling via Open-Web Reinforcement Learning
- Title(参考訳): Pangu DeepDiver: オープンWeb強化学習による適応型検索インテンシティスケーリング
- Authors: Wenxuan Shi, Haochen Tan, Chuqiao Kuang, Xiaoguang Li, Xiaozhe Ren, Chen Zhang, Hanting Chen, Yasheng Wang, Lifeng Shang, Fisher Yu, Yunhe Wang,
- Abstract要約: 情報検索は反復的証拠収集と反省的推論を要求するが、大きな言語モデル(LLM)は、オープンウェブの質問に答えることに苦慮している。
既存の手法は静的なプロンプトルールやウィキペディアベースのコーパスと検索環境によるトレーニングに依存している。
オープンワールドのインターネット環境における情報探索行動を促進するために設計された最初のデータセットであるWebPuzzleを紹介する。
- 参考スコア(独自算出の注目度): 79.26661332815465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Information seeking demands iterative evidence gathering and reflective reasoning, yet large language models (LLMs) still struggle with it in open-web question answering. Existing methods rely on static prompting rules or training with Wikipedia-based corpora and retrieval environments, limiting adaptability to the real-world web environment where ambiguity, conflicting evidence, and noise are prevalent. These constrained training settings hinder LLMs from learning to dynamically decide when and where to search, and how to adjust search depth and frequency based on informational demands. We define this missing capacity as Search Intensity Scaling (SIS)--the emergent skill to intensify search efforts under ambiguous or conflicting conditions, rather than settling on overconfident, under-verification answers. To study SIS, we introduce WebPuzzle, the first dataset designed to foster information-seeking behavior in open-world internet environments. WebPuzzle consists of 24K training instances and 275 test questions spanning both wiki-based and open-web queries. Building on this dataset, we propose DeepDiver, a Reinforcement Learning (RL) framework that promotes SIS by encouraging adaptive search policies through exploration under a real-world open-web environment. Experimental results show that Pangu-7B-Reasoner empowered by DeepDiver achieve performance on real-web tasks comparable to the 671B-parameter DeepSeek-R1. We detail DeepDiver's training curriculum from cold-start supervised fine-tuning to a carefully designed RL phase, and present that its capability of SIS generalizes from closed-form QA to open-ended tasks such as long-form writing. Our contributions advance adaptive information seeking in LLMs and provide a valuable benchmark and dataset for future research.
- Abstract(参考訳): 情報検索は反復的証拠収集と反省的推論を要求するが、大きな言語モデル(LLM)は、オープンウェブの質問に答えることに苦慮している。
既存の手法は、ウィキペディアベースのコーパスと検索環境による静的なプロンプトルールやトレーニングに依存しており、曖昧さ、矛盾する証拠、ノイズが一般的である現実世界のウェブ環境への適応性を制限する。
これらの制約されたトレーニング設定は、LLMがいつどこで検索するかを動的に決定し、情報要求に基づいて探索深度と周波数を調整する方法を学習することを妨げる。
この欠落した能力は検索強度スケーリング(SIS: Search Intensity Scaling)と定義する。
SISを研究するために、オープンワールドのインターネット環境における情報探索行動を促進するために設計された最初のデータセットであるWebPuzzleを紹介した。
WebPuzzleは24Kのトレーニングインスタンスと、wikiベースのクエリとオープンなWebクエリの両方にまたがる275のテスト質問で構成されている。
このデータセットに基づいて、実世界のオープンウェブ環境下での探索を通じて、適応的な検索ポリシーを奨励し、SISを促進するReinforcement Learning (RL)フレームワークであるDeepDiverを提案する。
実験結果から,DeepDiverによって付与されたPangu-7B-Reasonerは,671BパラメータのDeepSeek-R1に匹敵する実Webタスクの性能を達成できた。
本稿では,DeepDiverのトレーニングカリキュラムを,冷間開始教師による微調整から慎重に設計したRLフェーズまで,詳細に述べるとともに,SISの能力がクローズドフォームQAからロングフォームライティングなどのオープンエンドタスクへと一般化されることを示す。
我々の貢献は、LLMにおける適応情報検索を推進し、将来の研究に有用なベンチマークとデータセットを提供する。
関連論文リスト
- SimpleDeepSearcher: Deep Information Seeking via Web-Powered Reasoning Trajectory Synthesis [89.99161034065614]
Retrieval-augmented Generation (RAG) システムは複雑なディープ検索シナリオにおいて高度な大規模言語モデル(LLM)を持つ。
既存のアプローチでは、高品質なトレーニングトラジェクトリが欠如し、分散ミスマッチに苦しむ、重要な制限に直面しています。
本稿では,複雑なトレーニングパラダイムではなく,戦略的データエンジニアリングによるギャップを埋めるフレームワークであるSimpleDeepSearcherを紹介する。
論文 参考訳(メタデータ) (2025-05-22T16:05:02Z) - InfoDeepSeek: Benchmarking Agentic Information Seeking for Retrieval-Augmented Generation [63.55258191625131]
InfoDeepSeekは、現実世界の動的Web環境でエージェント情報を求めるための新しいベンチマークである。
本稿では,決定性,難易度,多様性の基準を満たす課題クエリを構築するための体系的手法を提案する。
本研究では,情報探索結果の正確性,有用性,コンパクト性に関する詳細な指標を含む,動的エージェント情報探索に適した最初の評価フレームワークを開発する。
論文 参考訳(メタデータ) (2025-05-21T14:44:40Z) - WebThinker: Empowering Large Reasoning Models with Deep Research Capability [60.81964498221952]
WebThinkerは、大規模な推論モデルに、Webを自律的に検索し、Webページをナビゲートし、推論プロセス中に研究レポートをドラフトする権限を与えるディープリサーチエージェントである。
また、textbf Autonomous Think-Search-and-Draft戦略を採用しており、モデルがシームレスに推論、情報収集、レポート作成をリアルタイムで行うことができる。
我々のアプローチは複雑なシナリオにおけるLEMの信頼性と適用性を高め、より有能で多目的な深層研究システムへの道を開く。
論文 参考訳(メタデータ) (2025-04-30T16:25:25Z) - DeepResearcher: Scaling Deep Research via Reinforcement Learning in Real-world Environments [20.498100965239818]
我々は、LLMベースのディープリサーチエージェントのエンドツーエンドトレーニングのための、初の総合的なフレームワークであるDeepResearcherを紹介する。
固定コーパス内にすべての必要な情報が存在すると仮定するRAGベースのアプローチとは異なり、我々の手法はオープンウェブのノイズ、非構造化、動的性質をナビゲートするエージェントを訓練する。
オープンドメインの研究タスクに関する大規模な実験は、DeepResearcherがエンジニアリングベースの素早いベースラインよりも最大28.9ポイントの大幅な改善を達成していることを示している。
論文 参考訳(メタデータ) (2025-04-04T04:41:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。