論文の概要: Light-R1: Curriculum SFT, DPO and RL for Long COT from Scratch and Beyond
- arxiv url: http://arxiv.org/abs/2503.10460v3
- Date: Tue, 01 Apr 2025 15:08:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-02 16:16:40.03469
- Title: Light-R1: Curriculum SFT, DPO and RL for Long COT from Scratch and Beyond
- Title(参考訳): Light-R1:SFT, DPO, RLによるCOT長期化
- Authors: Liang Wen, Yunke Cai, Fenrui Xiao, Xin He, Qi An, Zhenyu Duan, Yimin Du, Junchen Liu, Lifu Tang, Xiaowei Lv, Haosheng Zou, Yongchao Deng, Shousheng Jia, Xiangzheng Zhang,
- Abstract要約: 本稿では、長い推論モデルをトレーニングするためのオープンソースのスイートであるLight-R1を紹介する。
カリキュラムの学習は、多段階のポストトレーニングと組み合わせて、データの難易度を徐々に高めていく。
最終的なLight-R1-14B-DSは,AIME24と25のスコアが74.0,60.2の14Bモデル間でSOTA性能を実現している。
- 参考スコア(独自算出の注目度): 14.372747932761754
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces Light-R1, an open-source suite for training long reasoning models using reproducible and cost-effective methodology. Given the proprietary nature of data used in the DeepSeek-R1 series, we develop an alternative approach leveraging exclusively public data and models. Our curriculum training progressively increases data difficulty, combined with multi-staged post-training. Our Light-R1-32B model, trained from Qwen2.5-32B-Instruct, outperforms DeepSeek-R1-Distill-Qwen-32B in math reasoning. Experimental results show that this curriculum approach becomes more effective when distinct, diverse datasets are available for different training stages: fine-tuning DeepSeek-R1-Distilled models (pre-tuned by DeepSeek team on proprietary data) with 3,000 challenging examples from our curriculum dataset yielded state-of-the-art 7B and 14B models, while the 32B model, Light-R1-32B-DS performed comparably to QwQ-32B and DeepSeek-R1. Furthermore, we extend our work by applying GRPO on long reasoning models. Our final Light-R1-14B-DS achieves SOTA performance among 14B models in math, with AIME24 \& 25 scores of 74.0 and 60.2 respectively, surpassing many 32B models and DeepSeek-R1-Distill-Llama-70B. Despite math-focused training, Light-R1-14B-DS demonstrates strong cross-domain generalization. Light-R1 represents a significant advancement in making sophisticated reasoning models more accessible and implementable in real-world applications. Our models, training data and code have been made available at https://github.com/Qihoo360/Light-R1.
- Abstract(参考訳): 本稿では、再現性とコスト効率のよい手法を用いて、長い推論モデルをトレーニングするためのオープンソースのスイートであるLight-R1を紹介する。
DeepSeek-R1シリーズで使用されるデータのプロプライエタリな性質を考えると、我々は公開データとモデルのみを活用する代替アプローチを開発します。
カリキュラムの学習は、多段階のポストトレーニングと組み合わせて、データの難易度を徐々に高めていく。
我々のLight-R1-32BモデルはQwen2.5-32B-Instructで訓練され、DeepSeek-R1-Distill-Qwen-32Bより優れている。
細調整のDeepSeek-R1-Distilledモデル(DeepSeekチームがプロプライエタリなデータで事前設計した)と、このカリキュラムのデータセットから3000の挑戦的なサンプルが、最先端の7Bと14Bモデルで得られ、32BモデルであるLight-R1-32B-DSはQwQ-32BとDeepSeek-R1と互換性のある実行が行われた。
さらに、長い推論モデルにGRPOを適用して作業を拡張する。
最終的なLight-R1-14B-DSは,AIME24 \&25スコア74.0と60.2で,それぞれ32BモデルとDeepSeek-R1-Distill-Llama-70Bを上回った14Bモデル間でSOTA性能を達成した。
数学的な訓練にもかかわらず、Light-R1-14B-DSは強いクロスドメインの一般化を示す。
Light-R1は、高度な推論モデルを現実のアプリケーションでよりアクセスしやすく実装しやすくする大きな進歩である。
私たちのモデル、トレーニングデータ、コードはhttps://github.com/Qihoo360/Light-R1.comで公開されています。
関連論文リスト
- Phi-4-Mini-Reasoning: Exploring the Limits of Small Reasoning Language Models in Math [135.1260782461186]
CoT(Chain-of-Thought)は大規模言語モデル(LLM)の形式推論能力を著しく向上させる
しかし、Small Language Models (SLM) における推論の改善は、モデル能力が限られているため、依然として困難である。
本研究では,(1)多種多様な蒸留長CoTデータによる大規模中等教育,(2)高品質長CoTデータによる微調整,(3)厳格な選好データセットを活用したロールアウトDPO,(4)検証リワードを用いた強化学習(RL)の4段階からなるSLMの体系的トレーニングレシピを提案する。
論文 参考訳(メタデータ) (2025-04-30T00:04:35Z) - SRPO: A Cross-Domain Implementation of Large-Scale Reinforcement Learning on LLM [18.275547804539016]
Two-Staged History-Resampling Policy 最適化は AIME24 と LiveCodeBench ベンチマークにおける DeepSeek-R1-Zero-32B のパフォーマンスを上回る。
本研究では,(1)数学的推論と符号化能力の両立を図った2段階のクロスドメイン・トレーニングパラダイム,(2)非効率なサンプルに対処する手法であるヒストリ・サンプリング(HR)を紹介する。
論文 参考訳(メタデータ) (2025-04-19T13:06:03Z) - Open-Reasoner-Zero: An Open Source Approach to Scaling Up Reinforcement Learning on the Base Model [47.108822717757945]
大規模推論指向RLトレーニングの最初のオープンソース実装であるOpen-Reasoner-Zeroを紹介する。
オープンソースを念頭に置いて、ソースコード、パラメータ設定、トレーニングデータ、さまざまなサイズのモデルウェイトをリリースしています。
論文 参考訳(メタデータ) (2025-03-31T16:36:05Z) - R1-Zero's "Aha Moment" in Visual Reasoning on a 2B Non-SFT Model [70.77691645678804]
非SFT 2Bモデルのみを用いたマルチモーダル推論における創発的特性の再現に成功した最初の例を示す。
本モデルはCVBenchで59.47%の精度を達成し, ベースモデルを約30%, SFT設定を2%以上上回った。
さらに,RLとインストラクションモデルを用いてR1のような推論を行おうとする試みの失敗と知見を共有した。
論文 参考訳(メタデータ) (2025-03-07T04:21:47Z) - An Empirical Study on Eliciting and Improving R1-like Reasoning Models [90.52239241349504]
RLトレーニングのスケーリングは、そのような推論モデルを実装するための中心的なテクニックとなっている。
我々のRLトレーニングアプローチはQwen2.5-32Bベースモデルを継続的に改善することを示した。
また、ツール操作の利用についても検討し、大きな推論モデルの推論性能を大幅に向上させることを見出した。
論文 参考訳(メタデータ) (2025-03-06T15:34:27Z) - Think Inside the JSON: Reinforcement Strategy for Strict LLM Schema Adherence [0.0]
本稿では,大規模言語モデル(LLM)生成における厳密なスキーマ順守を推論能力を活用することによる課題に対処する。
我々のアプローチは、新しいパイプラインを通して1.5Bパラメータモデルの構造的推論スキルを訓練する。
我々はThinkJSONのアプローチを、オリジナルのDeepSeek R1 (671B)、DeepSeek R1 (Qwen-1.5BとQwen-7B)、Gemini 2.0 Flash (70B)の蒸留版と比較する。
論文 参考訳(メタデータ) (2025-02-18T16:44:55Z) - LIMR: Less is More for RL Scaling [25.477841726836836]
学習影響測定(Learning Impact Measurement, LIM)は, 学習サンプルを評価・優先順位付けする自動手法である。
提案手法は,1,389個のサンプルと8,523個のサンプルの完全なデータセットとを比較して,同等あるいは優れた性能を実現する。
再現可能な研究と今後のイノベーションのために、LIMRをオープンソース化しています。LIMRの実装、トレーニングと評価コード、キュレートされたデータセット、トレーニングされたモデルなどです。
論文 参考訳(メタデータ) (2025-02-17T15:13:29Z) - DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning [147.16121855209246]
第一世代の推論モデルであるDeepSeek-R1-ZeroとDeepSeek-R1を紹介します。
DeepSeek-R1-Zeroは大規模な強化学習を通じて訓練されている。
DeepSeek-R1は、RLの前にマルチステージトレーニングとコールドスタートデータを組み込んでいる。
論文 参考訳(メタデータ) (2025-01-22T15:19:35Z) - Scaling Offline Model-Based RL via Jointly-Optimized World-Action Model Pretraining [49.730897226510095]
我々は,60億のトークンデータを持つアタリゲーム上で事前訓練されたオフラインモデルベースRLエージェントであるJOWA: Jointly-Reinforceed World-Action Modelを紹介する。
われわれの最大のエージェントは、1億5000万のパラメータを持ち、10%のサブサンプルオフラインデータだけで事前トレーニングされたゲーム上での人間レベルのパフォーマンス78.9%で、既存の最先端の大規模なオフラインRLベースラインを31.6%上回っている。
論文 参考訳(メタデータ) (2024-10-01T10:25:03Z) - Compact Language Models via Pruning and Knowledge Distillation [61.56557874432008]
ミニトロンモデルでは、スクラッチからのトレーニングに比べてMMLUスコアが最大16%改善している。
すでにトレーニング済みの15Bモデルから8Bと4Bモデルを抽出するには、スクラッチからトレーニングするよりも、モデル毎のトレーニングトークンを最大40倍少なくする必要があります。
論文 参考訳(メタデータ) (2024-07-19T21:47:57Z) - Accessing Vision Foundation Models via ImageNet-1K [51.521125501182816]
Proteusは、ImageNetレベルのコストで、驚くべき能力でトレーニングされており、幅広い研究コミュニティのためのトレーニング基盤モデルのアクセシビリティを促進している。
Proteus-L/14は、OracleのDINOv2-L/14メソッドのパフォーマンスを19のベンチマークで比較し、CLIP-L/14 (400M)、OpenCLIP-L/14 (400M/2B)、SynCLR-L/14 (600M)など他のビジョン基盤モデルよりもはるかに少ない1.2Mイメージで性能を向上している。
論文 参考訳(メタデータ) (2024-07-15T00:13:53Z) - Multi-Label Guided Soft Contrastive Learning for Efficient Earth Observation Pretraining [19.143105229950976]
土地被覆土地利用製品は、自然界の強い知識を持つビジョン基盤モデルと同様に、自由なグローバルな意味情報を提供する。
これらの自由な追加リソースは、一般的なコントラスト学習ボトルネックを解決するだけでなく、EO事前学習の効率と効果を大幅に向上させることを示す。
我々は、既存のSOTAモデルよりも11の下流タスクのうち10のタスクにおいて、はるかに優れた結果が得られるマルチスペクトルおよびSAR基盤モデルを作成している。
論文 参考訳(メタデータ) (2024-05-30T20:19:42Z) - Weak-to-Strong Extrapolation Expedites Alignment [135.12769233630362]
モデルと人間の嗜好との整合性を高めるために,ExPOと呼ばれる手法を提案する。
ExPOは市販のDPO/RLHFモデルを一貫して改善することを示した。
我々は、アライメントトレーニング中に学んだ報酬信号を増幅するExPOの本質に光を当てた。
論文 参考訳(メタデータ) (2024-04-25T17:39:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。