論文の概要: Light-R1: Curriculum SFT, DPO and RL for Long COT from Scratch and Beyond
- arxiv url: http://arxiv.org/abs/2503.10460v1
- Date: Thu, 13 Mar 2025 15:29:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:54:43.641838
- Title: Light-R1: Curriculum SFT, DPO and RL for Long COT from Scratch and Beyond
- Title(参考訳): Light-R1:SFT, DPO, RLによるCOT長期化
- Authors: Liang Wen, Yunke Cai, Fenrui Xiao, Xin He, Qi An, Zhenyu Duan, Yimin Du, Junchen Liu, Lifu Tang, Xiaowei Lv, Haosheng Zou, Yongchao Deng, Shousheng Jia, Xiangzheng Zhang,
- Abstract要約: 私たちはまず、長いCOT能力を欠いたモデルから始まる、長いCOTモデルをスクラッチからトレーニングすることに重点を置いています。
Qwen2.5-32B-Instructから2段階のSFTとセミオン・ポリティクスDPOからなるカリキュラムトレーニングレシピを用いて、我々のモデルであるLight-R1-32Bをトレーニングする。
AIME24と25のスコアはそれぞれ74.0と60.2であり、Light-R1-14B-DSは32BモデルとDeepSeek-R1-Distill-Llama-70Bを抜いた。
- 参考スコア(独自算出の注目度): 14.372747932761754
- License:
- Abstract: This paper presents our work on the Light-R1 series, with models, data, and code all released. We first focus on training long COT models from scratch, specifically starting from models initially lacking long COT capabilities. Using a curriculum training recipe consisting of two-stage SFT and semi-on-policy DPO, we train our model Light-R1-32B from Qwen2.5-32B-Instruct, resulting in superior math performance compared to DeepSeek-R1-Distill-Qwen-32B. Despite being trained exclusively on math data, Light-R1-32B shows strong generalization across other domains. In the subsequent phase of this work, we highlight the significant benefit of the 3k dataset constructed for the second SFT stage on enhancing other models. By fine-tuning DeepSeek-R1-Distilled models using this dataset, we obtain new SOTA models in 7B and 14B, while the 32B model, Light-R1-32B-DS performed comparably to QwQ-32B and DeepSeek-R1. Furthermore, we extend our work by applying reinforcement learning, specifically GRPO, on long-COT models to further improve reasoning performance. We successfully train our final Light-R1-14B-DS with RL, achieving SOTA performance among 14B parameter models in math. With AIME24 & 25 scores of 74.0 and 60.2 respectively, Light-R1-14B-DS surpasses even many 32B models and DeepSeek-R1-Distill-Llama-70B. Its RL training also exhibits well expected behavior, showing simultaneous increase in response length and reward score. The Light-R1 series of work validates training long-COT models from scratch, showcases the art in SFT data and releases SOTA models from RL.
- Abstract(参考訳): 本稿では、モデル、データ、コードを全てリリースしたLight-R1シリーズについて述べる。
最初は、長いCOT能力を欠いたモデルから始まる、長いCOTモデルをスクラッチからトレーニングすることに重点を置いています。
Qwen2.5-32B-Instructから2段階のSFTとセミ・オン・ポリティクスDPOからなるカリキュラム・トレーニング・レシピをトレーニングし,DeepSeek-R1-Distill-Qwen-32Bと比較して計算性能が優れていることを示した。
Light-R1-32Bは、数学データにのみ訓練されているにもかかわらず、他の領域にまたがる強力な一般化を示している。
この研究の次の段階では、他のモデルを強化するための第2のSFTステージのために構築された3kデータセットの顕著な利点を強調した。
このデータセットを用いてDeepSeek-R1-Distilledモデルを微調整することにより、7Bと14Bの新しいSOTAモデルが得られる一方、32BモデルであるLight-R1-32B-DSはQwQ-32BとDeepSeek-R1と互換性がある。
さらに,強化学習,特にGRPOを長期COTモデルに適用することにより,推論性能をさらに向上する。
RLを用いた最後のLight-R1-14B-DSの学習に成功し,14Bパラメータモデル間のSOTA性能を実現した。
AIME24と25のスコアはそれぞれ74.0と60.2であり、Light-R1-14B-DSは32BモデルとDeepSeek-R1-Distill-Llama-70Bを抜いた。
RLトレーニングはまた、期待された振る舞いを示し、応答長と報酬スコアを同時に増加させる。
Light-R1シリーズは、長いCOTモデルをスクラッチからトレーニングし、SFTデータで技術を紹介し、SOTAモデルをRLからリリースする。
関連論文リスト
- LIMR: Less is More for RL Scaling [25.477841726836836]
学習影響測定(Learning Impact Measurement, LIM)は, 学習サンプルを評価・優先順位付けする自動手法である。
提案手法は,1,389個のサンプルと8,523個のサンプルの完全なデータセットとを比較して,同等あるいは優れた性能を実現する。
再現可能な研究と今後のイノベーションのために、LIMRをオープンソース化しています。LIMRの実装、トレーニングと評価コード、キュレートされたデータセット、トレーニングされたモデルなどです。
論文 参考訳(メタデータ) (2025-02-17T15:13:29Z) - Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning [65.2421542320293]
推論能力は汎用知能の重要な構成要素である。
OpenAIのoシリーズモデルなどのプロプライエタリ企業による最近の進歩は、推論タスクに顕著な進歩をもたらした。
本稿では、数学的推論タスクのための textbfOutcome textbfREwtextbfArd ベースの強化 textbfLearning により達成できる性能限界を追求する新しい RL フレームワーク OREAL を提案する。
論文 参考訳(メタデータ) (2025-02-10T18:57:29Z) - Scaling Offline Model-Based RL via Jointly-Optimized World-Action Model Pretraining [49.730897226510095]
我々は,60億のトークンデータを持つアタリゲーム上で事前訓練されたオフラインモデルベースRLエージェントであるJOWA: Jointly-Reinforceed World-Action Modelを紹介する。
われわれの最大のエージェントは、1億5000万のパラメータを持ち、10%のサブサンプルオフラインデータだけで事前トレーニングされたゲーム上での人間レベルのパフォーマンス78.9%で、既存の最先端の大規模なオフラインRLベースラインを31.6%上回っている。
論文 参考訳(メタデータ) (2024-10-01T10:25:03Z) - Accessing Vision Foundation Models via ImageNet-1K [51.521125501182816]
Proteusは、ImageNetレベルのコストで、驚くべき能力でトレーニングされており、幅広い研究コミュニティのためのトレーニング基盤モデルのアクセシビリティを促進している。
Proteus-L/14は、OracleのDINOv2-L/14メソッドのパフォーマンスを19のベンチマークで比較し、CLIP-L/14 (400M)、OpenCLIP-L/14 (400M/2B)、SynCLR-L/14 (600M)など他のビジョン基盤モデルよりもはるかに少ない1.2Mイメージで性能を向上している。
論文 参考訳(メタデータ) (2024-07-15T00:13:53Z) - Multi-Label Guided Soft Contrastive Learning for Efficient Earth Observation Pretraining [19.143105229950976]
土地被覆土地利用製品は、自然界の強い知識を持つビジョン基盤モデルと同様に、自由なグローバルな意味情報を提供する。
これらの自由な追加リソースは、一般的なコントラスト学習ボトルネックを解決するだけでなく、EO事前学習の効率と効果を大幅に向上させることを示す。
我々は、既存のSOTAモデルよりも11の下流タスクのうち10のタスクにおいて、はるかに優れた結果が得られるマルチスペクトルおよびSAR基盤モデルを作成している。
論文 参考訳(メタデータ) (2024-05-30T20:19:42Z) - Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment [65.15914284008973]
我々は、報酬モデルと政策モデルを同時に構築するために、逆強化学習(IRL)技術を活用することを提案する。
提案アルゴリズムはIRL問題の定常解に収束することを示す。
その結果,アライメントプロセス全体を通じて報酬学習を活用することは有益であることが示唆された。
論文 参考訳(メタデータ) (2024-05-28T07:11:05Z) - Weak-to-Strong Extrapolation Expedites Alignment [135.12769233630362]
モデルと人間の嗜好との整合性を高めるために,ExPOと呼ばれる手法を提案する。
ExPOは市販のDPO/RLHFモデルを一貫して改善することを示した。
我々は、アライメントトレーニング中に学んだ報酬信号を増幅するExPOの本質に光を当てた。
論文 参考訳(メタデータ) (2024-04-25T17:39:50Z) - Less Could Be Better: Parameter-efficient Fine-tuning Advances Medical
Vision Foundation Models [71.18275399694689]
医療視基盤モデルにおけるPEFTの有効性はまだ不明である。
NIH ChestX-ray14のラベル付きデータを用いたAUROCスコアの80.6%など,さまざまなデータ効率の学習タスクに対して,新たな最先端技術を構築した。
本研究は, PEFTを用いた医用画像の伝達学習において, コミュニティの注目を集めることが期待できる。
論文 参考訳(メタデータ) (2024-01-22T18:59:07Z) - DRL4Route: A Deep Reinforcement Learning Framework for Pick-up and
Delivery Route Prediction [21.335721424944257]
ルート予測タスクにRL(Reinforcement Learning)を一般化する最初の試みとして,DRL4Routeと呼ばれる新しいRLベースのフレームワークを提案する。
DRL4Routeは既存のディープラーニングモデルを強化するためのプラグイン・アンド・プレイコンポーネントとして機能する。
これは、一般化アドバンテージ推定器を備えたアクター批判アーキテクチャに従う。
論文 参考訳(メタデータ) (2023-07-30T14:50:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。