論文の概要: DR Tulu: Reinforcement Learning with Evolving Rubrics for Deep Research
- arxiv url: http://arxiv.org/abs/2511.19399v2
- Date: Wed, 26 Nov 2025 14:52:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 14:46:34.41085
- Title: DR Tulu: Reinforcement Learning with Evolving Rubrics for Deep Research
- Title(参考訳): DR Tulu: 深層研究のための進化するルーブリックによる強化学習
- Authors: Rulin Shao, Akari Asai, Shannon Zejiang Shen, Hamish Ivison, Varsha Kishore, Jingming Zhuo, Xinran Zhao, Molly Park, Samuel G. Finlayson, David Sontag, Tyler Murray, Sewon Min, Pradeep Dasigi, Luca Soldaini, Faeze Brahman, Wen-tau Yih, Tongshuang Wu, Luke Zettlemoyer, Yoon Kim, Hannaneh Hajishirzi, Pang Wei Koh,
- Abstract要約: ディープ・リサーチ・モデルは、多段階の研究を行い、長文でよく理解された回答を生成する。
ほとんどのオープンディープリサーチモデルは、検証可能な報酬を伴う強化学習を通じて、短い形式のQAタスクで訓練されている。
我々は、オープンエンドで長期のディープリサーチのために直接訓練された最初のオープンモデルであるDeep Research Tulu (DR Tulu-8B)を開発した。
- 参考スコア(独自算出の注目度): 152.2148664328137
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep research models perform multi-step research to produce long-form, well-attributed answers. However, most open deep research models are trained on easily verifiable short-form QA tasks via reinforcement learning with verifiable rewards (RLVR), which does not extend to realistic long-form tasks. We address this with Reinforcement Learning with Evolving Rubrics (RLER), in which we construct and maintain rubrics that co-evolve with the policy model during training; this allows the rubrics to incorporate information that the model has newly explored and to provide discriminative, on-policy feedback. Using RLER, we develop Deep Research Tulu (DR Tulu-8B), the first open model that is directly trained for open-ended, long-form deep research. Across four long-form deep research benchmarks in science, healthcare and general domains, DR Tulu substantially outperforms existing open deep research models, and matches or exceeds proprietary deep research systems, while being significantly smaller and cheaper per query. To facilitate future research, we release all data, models, and code, including our new MCP-based agent infrastructure for deep research systems.
- Abstract(参考訳): ディープ・リサーチ・モデルは、多段階の研究を行い、長文でよく理解された回答を生成する。
しかしながら、ほとんどのオープンディープ研究モデルは、現実的な長期タスクに拡張されない、検証可能な報酬付き強化学習(RLVR)を通じて、容易に検証可能な短期QAタスクについて訓練されている。
本稿では,RLER(Reinforcement Learning with Evolving Rubrics)でこの問題に対処し,トレーニング中に政策モデルと共進化するルーブリックを構築し,維持する。
RLERを用いて、オープンエンドの長期研究のために直接訓練された最初のオープンモデルであるDeep Research Tulu (DR Tulu-8B) を開発した。
科学、医療、一般分野の4つの長期にわたるディープ・リサーチ・ベンチマークの中で、DR Tuluは既存のオープン・ディープ・リサーチ・モデルを大幅に上回っており、プロプライエタリ・ディープ・リサーチ・システムに匹敵するか上回っている。
今後の研究を容易にするため、深層研究システムのための新しいMPPベースのエージェントインフラストラクチャを含む、すべてのデータ、モデル、コードをリリースする。
関連論文リスト
- From Web Search towards Agentic Deep Research: Incentivizing Search with Reasoning Agents [96.65646344634524]
推論とエージェント能力を備えた大規模言語モデル(LLM)は、エージェントディープリサーチ(Agenic Deep Research)と呼ばれる新しいパラダイムを取り入れている。
静的なWeb検索から,計画,探索,学習を行う対話型エージェントベースのシステムへの進化を辿ります。
我々はエージェントディープリサーチが既存のアプローチを著しく上回るだけでなく、将来の情報探索において支配的なパラダイムになることを実証する。
論文 参考訳(メタデータ) (2025-06-23T17:27:19Z) - 100 Days After DeepSeek-R1: A Survey on Replication Studies and More Directions for Reasoning Language Models [58.98176123850354]
最近のDeepSeek-R1のリリースは、広く社会的影響をもたらし、言語モデルの明確な推論パラダイムを探求する研究コミュニティに熱意を喚起した。
リリースされたモデルの実装詳細は、DeepSeek-R1-Zero、DeepSeek-R1、蒸留された小型モデルなど、DeepSeekによって完全にオープンソース化されていない。
多くのレプリケーション研究は、DeepSeek-R1が達成した強力なパフォーマンスを再現することを目的として、同様のトレーニング手順と完全なオープンソースデータリソースを通じて、同等のパフォーマンスに到達している。
論文 参考訳(メタデータ) (2025-05-01T14:28:35Z) - DeepResearcher: Scaling Deep Research via Reinforcement Learning in Real-world Environments [20.498100965239818]
我々は、LLMベースのディープリサーチエージェントのエンドツーエンドトレーニングのための、初の総合的なフレームワークであるDeepResearcherを紹介する。
固定コーパス内にすべての必要な情報が存在すると仮定するRAGベースのアプローチとは異なり、我々の手法はオープンウェブのノイズ、非構造化、動的性質をナビゲートするエージェントを訓練する。
オープンドメインの研究タスクに関する大規模な実験は、DeepResearcherがエンジニアリングベースの素早いベースラインよりも最大28.9ポイントの大幅な改善を達成していることを示している。
論文 参考訳(メタデータ) (2025-04-04T04:41:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。