論文の概要: Light-R1: Curriculum SFT, DPO and RL for Long COT from Scratch and Beyond
- arxiv url: http://arxiv.org/abs/2503.10460v2
- Date: Tue, 18 Mar 2025 17:07:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:17:51.912404
- Title: Light-R1: Curriculum SFT, DPO and RL for Long COT from Scratch and Beyond
- Title(参考訳): Light-R1:SFT, DPO, RLによるCOT長期化
- Authors: Liang Wen, Yunke Cai, Fenrui Xiao, Xin He, Qi An, Zhenyu Duan, Yimin Du, Junchen Liu, Lifu Tang, Xiaowei Lv, Haosheng Zou, Yongchao Deng, Shousheng Jia, Xiangzheng Zhang,
- Abstract要約: 本稿では、長い推論モデルをトレーニングするためのオープンソースのスイートであるLight-R1を紹介する。
カリキュラムの学習は、多段階のポストトレーニングと組み合わせて、データの難易度を徐々に高めていく。
最終的なLight-R1-14B-DSは,AIME24と25のスコアが74.0,60.2の14Bモデル間でSOTA性能を実現している。
- 参考スコア(独自算出の注目度): 14.372747932761754
- License:
- Abstract: This paper introduces Light-R1, an open-source suite for training long reasoning models using reproducible and cost-effective methodology. Given the proprietary nature of data used in the DeepSeek-R1 series, we develop an alternative approach leveraging exclusively public data and models. Our curriculum training progressively increases data difficulty, combined with multi-staged post-training. Our Light-R1-32B model, trained from Qwen2.5-32B-Instruct, outperforms DeepSeek-R1-Distill-Qwen-32B in math reasoning. Experimental results show that this curriculum approach becomes more effective when distinct, diverse datasets are available for different training stages: fine-tuning DeepSeek-R1-Distilled models (pre-tuned by DeepSeek team on proprietary data) with 3,000 challenging examples from our curriculum dataset yielded state-of-the-art 7B and 14B models, while the 32B model, Light-R1-32B-DS performed comparably to QwQ-32B and DeepSeek-R1. Furthermore, we extend our work by applying GRPO on long reasoning models. Our final Light-R1-14B-DS achieves SOTA performance among 14B models in math, with AIME24 \& 25 scores of 74.0 and 60.2 respectively, surpassing many 32B models and DeepSeek-R1-Distill-Llama-70B. Despite math-focused training, Light-R1-14B-DS demonstrates strong cross-domain generalization. Light-R1 represents a significant advancement in making sophisticated reasoning models more accessible and implementable in real-world applications. Our models, training data and code have been made available at https://github.com/Qihoo360/Light-R1.
- Abstract(参考訳): 本稿では、再現性とコスト効率のよい手法を用いて、長い推論モデルをトレーニングするためのオープンソースのスイートであるLight-R1を紹介する。
DeepSeek-R1シリーズで使用されるデータのプロプライエタリな性質を考えると、我々は公開データとモデルのみを活用する代替アプローチを開発します。
カリキュラムの学習は、多段階のポストトレーニングと組み合わせて、データの難易度を徐々に高めていく。
我々のLight-R1-32BモデルはQwen2.5-32B-Instructで訓練され、DeepSeek-R1-Distill-Qwen-32Bより優れている。
細調整のDeepSeek-R1-Distilledモデル(DeepSeekチームがプロプライエタリなデータで事前設計した)と、このカリキュラムのデータセットから3000の挑戦的なサンプルが、最先端の7Bと14Bモデルで得られ、32BモデルであるLight-R1-32B-DSはQwQ-32BとDeepSeek-R1と互換性のある実行が行われた。
さらに、長い推論モデルにGRPOを適用して作業を拡張する。
最終的なLight-R1-14B-DSは,AIME24 \&25スコア74.0と60.2で,それぞれ32BモデルとDeepSeek-R1-Distill-Llama-70Bを上回った14Bモデル間でSOTA性能を達成した。
数学的な訓練にもかかわらず、Light-R1-14B-DSは強いクロスドメインの一般化を示す。
Light-R1は、高度な推論モデルを現実のアプリケーションでよりアクセスしやすく実装しやすくする大きな進歩である。
私たちのモデル、トレーニングデータ、コードはhttps://github.com/Qihoo360/Light-R1.comで公開されています。
関連論文リスト
- LIMR: Less is More for RL Scaling [25.477841726836836]
学習影響測定(Learning Impact Measurement, LIM)は, 学習サンプルを評価・優先順位付けする自動手法である。
提案手法は,1,389個のサンプルと8,523個のサンプルの完全なデータセットとを比較して,同等あるいは優れた性能を実現する。
再現可能な研究と今後のイノベーションのために、LIMRをオープンソース化しています。LIMRの実装、トレーニングと評価コード、キュレートされたデータセット、トレーニングされたモデルなどです。
論文 参考訳(メタデータ) (2025-02-17T15:13:29Z) - Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning [65.2421542320293]
推論能力は汎用知能の重要な構成要素である。
OpenAIのoシリーズモデルなどのプロプライエタリ企業による最近の進歩は、推論タスクに顕著な進歩をもたらした。
本稿では、数学的推論タスクのための textbfOutcome textbfREwtextbfArd ベースの強化 textbfLearning により達成できる性能限界を追求する新しい RL フレームワーク OREAL を提案する。
論文 参考訳(メタデータ) (2025-02-10T18:57:29Z) - Scaling Offline Model-Based RL via Jointly-Optimized World-Action Model Pretraining [49.730897226510095]
我々は,60億のトークンデータを持つアタリゲーム上で事前訓練されたオフラインモデルベースRLエージェントであるJOWA: Jointly-Reinforceed World-Action Modelを紹介する。
われわれの最大のエージェントは、1億5000万のパラメータを持ち、10%のサブサンプルオフラインデータだけで事前トレーニングされたゲーム上での人間レベルのパフォーマンス78.9%で、既存の最先端の大規模なオフラインRLベースラインを31.6%上回っている。
論文 参考訳(メタデータ) (2024-10-01T10:25:03Z) - Accessing Vision Foundation Models via ImageNet-1K [51.521125501182816]
Proteusは、ImageNetレベルのコストで、驚くべき能力でトレーニングされており、幅広い研究コミュニティのためのトレーニング基盤モデルのアクセシビリティを促進している。
Proteus-L/14は、OracleのDINOv2-L/14メソッドのパフォーマンスを19のベンチマークで比較し、CLIP-L/14 (400M)、OpenCLIP-L/14 (400M/2B)、SynCLR-L/14 (600M)など他のビジョン基盤モデルよりもはるかに少ない1.2Mイメージで性能を向上している。
論文 参考訳(メタデータ) (2024-07-15T00:13:53Z) - Multi-Label Guided Soft Contrastive Learning for Efficient Earth Observation Pretraining [19.143105229950976]
土地被覆土地利用製品は、自然界の強い知識を持つビジョン基盤モデルと同様に、自由なグローバルな意味情報を提供する。
これらの自由な追加リソースは、一般的なコントラスト学習ボトルネックを解決するだけでなく、EO事前学習の効率と効果を大幅に向上させることを示す。
我々は、既存のSOTAモデルよりも11の下流タスクのうち10のタスクにおいて、はるかに優れた結果が得られるマルチスペクトルおよびSAR基盤モデルを作成している。
論文 参考訳(メタデータ) (2024-05-30T20:19:42Z) - Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment [65.15914284008973]
我々は、報酬モデルと政策モデルを同時に構築するために、逆強化学習(IRL)技術を活用することを提案する。
提案アルゴリズムはIRL問題の定常解に収束することを示す。
その結果,アライメントプロセス全体を通じて報酬学習を活用することは有益であることが示唆された。
論文 参考訳(メタデータ) (2024-05-28T07:11:05Z) - Weak-to-Strong Extrapolation Expedites Alignment [135.12769233630362]
モデルと人間の嗜好との整合性を高めるために,ExPOと呼ばれる手法を提案する。
ExPOは市販のDPO/RLHFモデルを一貫して改善することを示した。
我々は、アライメントトレーニング中に学んだ報酬信号を増幅するExPOの本質に光を当てた。
論文 参考訳(メタデータ) (2024-04-25T17:39:50Z) - Less Could Be Better: Parameter-efficient Fine-tuning Advances Medical
Vision Foundation Models [71.18275399694689]
医療視基盤モデルにおけるPEFTの有効性はまだ不明である。
NIH ChestX-ray14のラベル付きデータを用いたAUROCスコアの80.6%など,さまざまなデータ効率の学習タスクに対して,新たな最先端技術を構築した。
本研究は, PEFTを用いた医用画像の伝達学習において, コミュニティの注目を集めることが期待できる。
論文 参考訳(メタデータ) (2024-01-22T18:59:07Z) - DRL4Route: A Deep Reinforcement Learning Framework for Pick-up and
Delivery Route Prediction [21.335721424944257]
ルート予測タスクにRL(Reinforcement Learning)を一般化する最初の試みとして,DRL4Routeと呼ばれる新しいRLベースのフレームワークを提案する。
DRL4Routeは既存のディープラーニングモデルを強化するためのプラグイン・アンド・プレイコンポーネントとして機能する。
これは、一般化アドバンテージ推定器を備えたアクター批判アーキテクチャに従う。
論文 参考訳(メタデータ) (2023-07-30T14:50:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。