論文の概要: DAPO: An Open-Source LLM Reinforcement Learning System at Scale
- arxiv url: http://arxiv.org/abs/2503.14476v1
- Date: Tue, 18 Mar 2025 17:49:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:17:49.928495
- Title: DAPO: An Open-Source LLM Reinforcement Learning System at Scale
- Title(参考訳): DAPO:大規模LLM強化学習システム
- Authors: Qiying Yu, Zheng Zhang, Ruofei Zhu, Yufeng Yuan, Xiaochen Zuo, Yu Yue, Tiantian Fan, Gaohong Liu, Lingjun Liu, Xin Liu, Haibin Lin, Zhiqi Lin, Bole Ma, Guangming Sheng, Yuxuan Tong, Chi Zhang, Mofan Zhang, Wang Zhang, Hang Zhu, Jinhua Zhu, Jiaze Chen, Jiangjie Chen, Chengyi Wang, Hongli Yu, Weinan Dai, Yuxuan Song, Xiangpeng Wei, Hao Zhou, Jingjing Liu, Wei-Ying Ma, Ya-Qin Zhang, Lin Yan, Mu Qiao, Yonghui Wu, Mingxuan Wang,
- Abstract要約: 我々は,Qwen2.5-32Bベースモデルを用いて,AIME 2024上で50ポイントを達成できる最先端の大規模RLシステムをオープンソース化した。
さらに,verlフレームワーク上に構築されたトレーニングコードと,慎重にキュレートされた,処理されたデータセットもオープンソースとして公開しています。
- 参考スコア(独自算出の注目度): 63.24798333145823
- License:
- Abstract: Inference scaling empowers LLMs with unprecedented reasoning ability, with reinforcement learning as the core technique to elicit complex reasoning. However, key technical details of state-of-the-art reasoning LLMs are concealed (such as in OpenAI o1 blog and DeepSeek R1 technical report), thus the community still struggles to reproduce their RL training results. We propose the $\textbf{D}$ecoupled Clip and $\textbf{D}$ynamic s$\textbf{A}$mpling $\textbf{P}$olicy $\textbf{O}$ptimization ($\textbf{DAPO}$) algorithm, and fully open-source a state-of-the-art large-scale RL system that achieves 50 points on AIME 2024 using Qwen2.5-32B base model. Unlike previous works that withhold training details, we introduce four key techniques of our algorithm that make large-scale LLM RL a success. In addition, we open-source our training code, which is built on the verl framework, along with a carefully curated and processed dataset. These components of our open-source system enhance reproducibility and support future research in large-scale LLM RL.
- Abstract(参考訳): 推論スケーリングは、複雑な推論を誘発するコア技術として強化学習を用いて、前例のない推論能力を持つLLMに力を与える。
しかし、最先端の推論LDMに関する重要な技術的詳細は隠されている(OpenAI o1ブログやDeepSeek R1テクニカルレポートなど)ため、コミュニティはまだRLトレーニング結果を再現するのに苦労している。
我々は、$\textbf{D}$ecoupled Clip and $\textbf{D}$ynamic s$\textbf{A}$mpling $\textbf{P}$olicy $\textbf{O}$ptimization$\textbf{DAPO}$)アルゴリズムを提案し、Qwen2.5-32Bベースモデルを用いて、AIME 2024上の50ポイントを達成する最先端の大規模RLシステムを完全にオープンソース化する。
トレーニングの詳細を保たない以前の研究とは異なり、大規模LLM RLを成功させるアルゴリズムの4つの重要な技術を導入している。
さらに,verlフレームワーク上に構築されたトレーニングコードと,慎重にキュレートされた,処理されたデータセットもオープンソースとして公開しています。
オープンソースシステムのこれらのコンポーネントは再現性を高め、大規模LLM RLにおける将来の研究を支援する。
関連論文リスト
- Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - Control LLM: Controlled Evolution for Intelligence Retention in LLM [4.67235851066221]
並列事前学習および拡張トランスブロックを利用した新しいアプローチである textbfControl LLM を提案する。
CPT(Continuous Pre-Training)とCSFT(Continuous Supervised Fine-Tuning)における制御LDMの有効性を示す実験
既存の手法を超越し、同じベースモデルからチューニングされたオープンソースモデルの中でSOTAを実現する。
論文 参考訳(メタデータ) (2025-01-19T08:06:06Z) - GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。
GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文 参考訳(メタデータ) (2024-10-11T03:05:06Z) - LMGT: Optimizing Exploration-Exploitation Balance in Reinforcement Learning through Language Model Guided Trade-offs [27.014415210732103]
強化学習のための新しいサンプル効率フレームワークである textbfLanguage textbfModel textbfGuided textbfTrade-offs (textbfLMGT) を紹介する。
論文 参考訳(メタデータ) (2024-09-07T07:40:43Z) - Refiner: Restructure Retrieval Content Efficiently to Advance Question-Answering Capabilities [30.1331670544648]
大規模言語モデル(LLM)はパラメトリックな知識によって制限され、知識集約的なタスクに幻覚をもたらす。
我々は、RAGの検索後のプロセスで機能するエンドツーエンドの抽出・再構成パラダイムである$textitRefiner$を提案する。
論文 参考訳(メタデータ) (2024-06-17T09:25:10Z) - KnowCoder: Coding Structured Knowledge into LLMs for Universal Information Extraction [59.039355258637315]
コード生成によるユニバーサル情報抽出(UIE)を行うためのLarge Language Model(LLM)であるKnowCoderを提案する。
KnowCoderは、異なるスキーマをPythonクラスに一様に変換するコードスタイルのスキーマ表現メソッドを導入した。
KnowCoderには、2フェーズの学習フレームワークがあり、コード事前トレーニングによるスキーマ理解能力と、命令チューニングによるスキーマ追従能力を向上させる。
論文 参考訳(メタデータ) (2024-03-12T14:56:34Z) - Teaching Large Language Models to Reason with Reinforcement Learning [38.17625148525193]
人間のフィードバックからの強化学習(textbfRLHF)は、LLM出力と人間の嗜好を整合させる主要なアプローチとして現れている。
RLHFの成功に触発され,フィードバックから学習する複数のアルゴリズムの性能について検討した。
論文 参考訳(メタデータ) (2024-03-07T16:36:29Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Unleashing the Power of Pre-trained Language Models for Offline Reinforcement Learning [50.9692060692705]
本稿では、オフラインRL用の決定変換器をベースとした一般的なフレームワークである、$textbfMo$tion Control(textbfLaMo$)のための$textbfLanguage Modelsを紹介する。
私たちのフレームワークは4つの重要なコンポーネントを強調しています。
逐次事前学習したLMを用いた決定変換器の初期化(2)LoRA微細調整法を用いて
特に,本手法は,限られたデータサンプルを持つシナリオにおいて,優れた性能を示す。
論文 参考訳(メタデータ) (2023-10-31T16:24:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。