論文の概要: LiteResearcher: A Scalable Agentic RL Training Framework for Deep Research Agent
- arxiv url: http://arxiv.org/abs/2604.17931v2
- Date: Wed, 22 Apr 2026 09:13:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:10.366348
- Title: LiteResearcher: A Scalable Agentic RL Training Framework for Deep Research Agent
- Title(参考訳): LiteResearcher: ディープリサーチエージェントのためのスケーラブルなエージェントRLトレーニングフレームワーク
- Authors: Wanli Li, Bince Qu, Bo Pan, Jianyu Zhang, Zheng Liu, Pan Zhang, Wei Chen, Bo Zhang,
- Abstract要約: LiteResearcherは、Agentic RLをスケーラブルにするトレーニングフレームワークである。
実世界の検索ダイナミクスを反映したエレガントな仮想世界を構築することにより、小型の検索エージェントが大規模なオープンソースおよび商用モデルを上回る性能を発揮する。
- 参考スコア(独自算出の注目度): 20.58731853877092
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning (RL) has emerged as a powerful training paradigm for LLM-based agents. However, scaling agentic RL for deep research remains constrained by two coupled challenges: hand-crafted synthetic data fails to elicit genuine real-world search capabilities, and real-world search dependency during RL training introduces instability and prohibitive cost, which limits the scalability of Agentic RL. LiteResearcher is a training framework that makes Agentic RL scalable: by constructing a lite virtual world that mirrors real-world search dynamics, we enable a continuously improving training recipe that empowers a tiny search agent to outperform large-scale open-source and commercial models (e.g., Tongyi DeepResearch and Claude-4.5 Sonnet). Specifically, on common benchmarks such as GAIA and Xbench, our LiteResearcher-4B achieves open-source state-of-the-art results of 71.3% and 78.0% respectively, demonstrating that scalable RL training is a key enabler for Deep Research Agents.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、LLMベースのエージェントのための強力な訓練パラダイムとして登場した。
しかし、ディープリサーチのためのエージェントRLのスケーリングは、手作りの合成データが真の現実世界の検索能力を引き出すのに失敗し、RLトレーニング中の現実世界の検索依存は不安定性と禁止コストをもたらすため、エージェントRLのスケーラビリティが制限される、という2つの課題によって制限されている。
LiteResearcherは、Agentic RLをスケーラブルにするトレーニングフレームワークである。現実世界の検索ダイナミクスを反映したエレガントな仮想世界を構築することで、小さな検索エージェントが大規模なオープンソースおよび商用モデル(Tongyi DeepResearchやClaude-4.5 Sonnetなど)を上回るように、継続的に改善するトレーニングレシピを可能にします。
具体的には、GAIAやXbenchなどの一般的なベンチマークにおいて、LiteResearcher-4Bは、それぞれ71.3%と78.0%のオープンソースの成果を達成し、スケーラブルなRLトレーニングがDeep Research Agentsのキーイネーブラーであることを実証している。
関連論文リスト
- OffSeeker: Online Reinforcement Learning Is Not All You Need for Deep Research Agents [68.79728889531806]
最先端のパフォーマンスは通常、オンライン強化学習(RL)に依存します。
オフライントレーニングを効果的に行うために設計された、完全なオープンソーススイートを紹介します。
当社の中核的なコントリビューションはDeepForgeです。DeepForgeは、大量の前処理なしで大規模な研究クエリを生成する、使えるタスク合成フレームワークです。
論文 参考訳(メタデータ) (2026-01-26T13:13:59Z) - Search Self-play: Pushing the Frontier of Agent Capability without Supervision [14.889394507446477]
本稿では,ディープサーチエージェントのためのセルフプレイトレーニングを提案する。
探索セルフプレイ(SSP)ゲームにおいて、提案者と解決者は、競争と協力の両面からエージェント能力を共同開発する。
SSPは、様々なベンチマークにおいて、いかなる監督も受けずに、検索エージェントのパフォーマンスを均一に向上させることができる。
論文 参考訳(メタデータ) (2025-10-21T17:19:35Z) - Demystifying Reinforcement Learning in Agentic Reasoning [90.3737088727791]
エージェント推論における強化学習のデミスティフィケーションのための包括的かつ体系的な調査を行う。
i) 縫合された合成軌道を、実際のエンドツーエンドのツール・ツー・ユース・トラジェクトリに置き換えることで、より強力なSFTが得られる。
探索フレンドリーな技術は、高いクリップ、過剰な報酬形成、適切なポリシーエントロピーの維持といったエージェントRLにとって不可欠であり、訓練効率を向上させることができる。
論文 参考訳(メタデータ) (2025-10-13T17:57:15Z) - AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning [129.44038804430542]
本稿では,マルチターン対話型意思決定のためのLLMエージェントをRLで学習する新しいフレームワークであるAgentGym-RLを紹介する。
本研究では,探索-探索バランスと安定したRL最適化のためのトレーニング手法であるScalingInter-RLを提案する。
当社のエージェントは、さまざまな環境にまたがる27のタスクで、商用モデルにマッチするか、超えています。
論文 参考訳(メタデータ) (2025-09-10T16:46:11Z) - SSRL: Self-Search Reinforcement Learning [37.21683758480754]
大規模言語モデル(LLM)の固有探索能力を定量化する。
本稿では,SSRL(Self-Search RL)を導入した。
実証的な評価により,SSRL学習政策モデルは,検索駆動型RL学習のための費用対効果と安定した環境を提供することが示された。
論文 参考訳(メタデータ) (2025-08-14T17:46:01Z) - An Empirical Study on Reinforcement Learning for Reasoning-Search Interleaved LLM Agents [34.25887147052966]
強化学習(RL)は、現実世界の問題解決に複雑な推論が可能な大規模言語モデル(LLM)の訓練に強い可能性を示している。
最近では、RLを利用して、推論と検索エンジンの使用を巧みに組み合わせた高度なLLMベースの検索エージェントが作成されている。
1)報酬の定式化,(2)基礎となるLLMの選択と特性,(3)RLプロセスにおける検索エンジンの役割など,重要な要素はさらなる調査が必要である。
論文 参考訳(メタデータ) (2025-05-21T05:09:43Z) - ZeroSearch: Incentivize the Search Capability of LLMs without Searching [69.55482019211597]
我々はZeroSearchを紹介した。ZeroSearchは、学習中にシミュレーションされた検索を備えた実検索エンジンを使用するための、大規模言語モデルの能力を動機付けるフレームワークである。
提案手法は,LLMを有用な文書とノイズの両方を生成可能な検索モジュールに変換するための,軽量な教師付き微調整から始まる。
論文 参考訳(メタデータ) (2025-05-07T17:30:22Z) - R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z) - Auto-Agent-Distiller: Towards Efficient Deep Reinforcement Learning Agents via Neural Architecture Search [15.3602645148428]
本稿では,様々なタスクに対して最適なDRLエージェントを自動検索するAuto-Agent-Distiller (A2D) フレームワークを提案する。
我々は,バニラNASがDRLトレーニング安定性のばらつきが大きいため,最適なエージェントの探索に容易に失敗できることを実証した。
そこで我々は,教師エージェントのアクターと評論家の両方から知識を蒸留し,探索プロセスを安定させ,探索エージェントの最適性を向上する新しい蒸留機構を開発する。
論文 参考訳(メタデータ) (2020-12-24T04:07:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。