論文の概要: Skywork Open Reasoner 1 Technical Report
- arxiv url: http://arxiv.org/abs/2505.22312v2
- Date: Thu, 29 May 2025 09:07:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 13:10:25.791399
- Title: Skywork Open Reasoner 1 Technical Report
- Title(参考訳): Skywork Open Reasoner 1テクニカルレポート
- Authors: Jujie He, Jiacai Liu, Chris Yuhao Liu, Rui Yan, Chaojie Wang, Peng Cheng, Xiaoyu Zhang, Fuxiang Zhang, Jiacheng Xu, Wei Shen, Siyuan Li, Liang Zeng, Tianwen Wei, Cheng Cheng, Bo An, Yang Liu, Yahui Zhou,
- Abstract要約: 提案するSkywork-OR1は,長期チェーン・オブ・ソート(CoT)モデルのための,効果的かつスケーラブルな強化学習(RL)実装である。
DeepSeek-R1-Distillモデルシリーズをベースとして、我々のRLアプローチは顕著なパフォーマンス向上を実現している。
我々のSkywork-OR1-32Bモデルは、AIME24とAIME25ベンチマークでDeepSeek-R1とQwen3-32Bを上回っています。
- 参考スコア(独自算出の注目度): 51.403686909760914
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The success of DeepSeek-R1 underscores the significant role of reinforcement learning (RL) in enhancing the reasoning capabilities of large language models (LLMs). In this work, we present Skywork-OR1, an effective and scalable RL implementation for long Chain-of-Thought (CoT) models. Building on the DeepSeek-R1-Distill model series, our RL approach achieves notable performance gains, increasing average accuracy across AIME24, AIME25, and LiveCodeBench from 57.8% to 72.8% (+15.0%) for the 32B model and from 43.6% to 57.5% (+13.9%) for the 7B model. Our Skywork-OR1-32B model surpasses both DeepSeek-R1 and Qwen3-32B on the AIME24 and AIME25 benchmarks, while achieving comparable results on LiveCodeBench. The Skywork-OR1-7B and Skywork-OR1-Math-7B models demonstrate competitive reasoning capabilities among models of similar size. We perform comprehensive ablation studies on the core components of our training pipeline to validate their effectiveness. Additionally, we thoroughly investigate the phenomenon of entropy collapse, identify key factors affecting entropy dynamics, and demonstrate that mitigating premature entropy collapse is critical for improved test performance. To support community research, we fully open-source our model weights, training code, and training datasets.
- Abstract(参考訳): DeepSeek-R1の成功は、大規模言語モデル(LLM)の推論能力を高める上での強化学習(RL)の重要な役割を浮き彫りにしている。
本研究では,長いチェーン・オブ・ソート(CoT)モデルに対する有効かつスケーラブルなRL実装であるSkywork-OR1を提案する。
DeepSeek-R1-Distillモデルシリーズをベースとして、我々のRLアプローチは、AIME24、AIME25、LiveCodeBenchの平均精度を、32Bモデルでは57.8%から72.8%(+15.0%)、7Bモデルでは43.6%から57.5%(+13.9%)に向上した。
私たちのSkywork-OR1-32Bモデルは、AIME24とAIME25ベンチマークでDeepSeek-R1とQwen3-32Bを上回り、LiveCodeBenchで同等の結果を得ています。
Skywork-OR1-7BとSkywork-OR1-Math-7Bは、類似サイズのモデル間で競合する推論能力を示す。
トレーニングパイプラインのコアコンポーネントに関する包括的なアブレーション研究を行い、その有効性を検証する。
さらに,エントロピー崩壊現象を徹底的に研究し,エントロピー力学に影響を及ぼす要因を同定し,早期エントロピー崩壊の緩和が試験性能の向上に重要であることを示す。
コミュニティリサーチをサポートするため、私たちは、モデルの重み付け、トレーニングコード、トレーニングデータセットを完全にオープンソースにしています。
関連論文リスト
- AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning [50.02117478165099]
大規模強化学習は, 強大・中小モデルの推論能力を大幅に向上させることができることを示す。
まずは算数のみのプロンプト、次にコードのみのプロンプトのトレーニングを行う。
論文 参考訳(メタデータ) (2025-05-22T08:50:47Z) - Reinforcement Learning for Reasoning in Large Language Models with One Training Example [133.018487956408]
1つのトレーニング例(1ショットRLVR)を用いた強化学習は,大規模言語モデル(LLM)の数学的推論能力の向上に有効であることを示す。
1ショットRLVRにおける興味深い現象として、クロスドメインの一般化、自己回帰の頻度の増大、トレーニング精度が飽和した後もテスト性能の向上が維持されていることを挙げる。
論文 参考訳(メタデータ) (2025-04-29T09:24:30Z) - Light-R1: Curriculum SFT, DPO and RL for Long COT from Scratch and Beyond [14.372747932761754]
本稿では、長い推論モデルをトレーニングするためのオープンソースのスイートであるLight-R1を紹介する。
カリキュラムの学習は、多段階のポストトレーニングと組み合わせて、データの難易度を徐々に高めていく。
最終的なLight-R1-14B-DSは,AIME24と25のスコアが74.0,60.2の14Bモデル間でSOTA性能を実現している。
論文 参考訳(メタデータ) (2025-03-13T15:29:22Z) - An Empirical Study on Eliciting and Improving R1-like Reasoning Models [90.52239241349504]
RLトレーニングのスケーリングは、そのような推論モデルを実装するための中心的なテクニックとなっている。
我々のRLトレーニングアプローチはQwen2.5-32Bベースモデルを継続的に改善することを示した。
また、ツール操作の利用についても検討し、大きな推論モデルの推論性能を大幅に向上させることを見出した。
論文 参考訳(メタデータ) (2025-03-06T15:34:27Z) - Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。
我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。
人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文 参考訳(メタデータ) (2023-10-02T09:47:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。