論文の概要: Skywork Open Reasoner 1 Technical Report
- arxiv url: http://arxiv.org/abs/2505.22312v2
- Date: Thu, 29 May 2025 09:07:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 13:10:25.791399
- Title: Skywork Open Reasoner 1 Technical Report
- Title(参考訳): Skywork Open Reasoner 1テクニカルレポート
- Authors: Jujie He, Jiacai Liu, Chris Yuhao Liu, Rui Yan, Chaojie Wang, Peng Cheng, Xiaoyu Zhang, Fuxiang Zhang, Jiacheng Xu, Wei Shen, Siyuan Li, Liang Zeng, Tianwen Wei, Cheng Cheng, Bo An, Yang Liu, Yahui Zhou,
- Abstract要約: 提案するSkywork-OR1は,長期チェーン・オブ・ソート(CoT)モデルのための,効果的かつスケーラブルな強化学習(RL)実装である。
DeepSeek-R1-Distillモデルシリーズをベースとして、我々のRLアプローチは顕著なパフォーマンス向上を実現している。
我々のSkywork-OR1-32Bモデルは、AIME24とAIME25ベンチマークでDeepSeek-R1とQwen3-32Bを上回っています。
- 参考スコア(独自算出の注目度): 51.403686909760914
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The success of DeepSeek-R1 underscores the significant role of reinforcement learning (RL) in enhancing the reasoning capabilities of large language models (LLMs). In this work, we present Skywork-OR1, an effective and scalable RL implementation for long Chain-of-Thought (CoT) models. Building on the DeepSeek-R1-Distill model series, our RL approach achieves notable performance gains, increasing average accuracy across AIME24, AIME25, and LiveCodeBench from 57.8% to 72.8% (+15.0%) for the 32B model and from 43.6% to 57.5% (+13.9%) for the 7B model. Our Skywork-OR1-32B model surpasses both DeepSeek-R1 and Qwen3-32B on the AIME24 and AIME25 benchmarks, while achieving comparable results on LiveCodeBench. The Skywork-OR1-7B and Skywork-OR1-Math-7B models demonstrate competitive reasoning capabilities among models of similar size. We perform comprehensive ablation studies on the core components of our training pipeline to validate their effectiveness. Additionally, we thoroughly investigate the phenomenon of entropy collapse, identify key factors affecting entropy dynamics, and demonstrate that mitigating premature entropy collapse is critical for improved test performance. To support community research, we fully open-source our model weights, training code, and training datasets.
- Abstract(参考訳): DeepSeek-R1の成功は、大規模言語モデル(LLM)の推論能力を高める上での強化学習(RL)の重要な役割を浮き彫りにしている。
本研究では,長いチェーン・オブ・ソート(CoT)モデルに対する有効かつスケーラブルなRL実装であるSkywork-OR1を提案する。
DeepSeek-R1-Distillモデルシリーズをベースとして、我々のRLアプローチは、AIME24、AIME25、LiveCodeBenchの平均精度を、32Bモデルでは57.8%から72.8%(+15.0%)、7Bモデルでは43.6%から57.5%(+13.9%)に向上した。
私たちのSkywork-OR1-32Bモデルは、AIME24とAIME25ベンチマークでDeepSeek-R1とQwen3-32Bを上回り、LiveCodeBenchで同等の結果を得ています。
Skywork-OR1-7BとSkywork-OR1-Math-7Bは、類似サイズのモデル間で競合する推論能力を示す。
トレーニングパイプラインのコアコンポーネントに関する包括的なアブレーション研究を行い、その有効性を検証する。
さらに,エントロピー崩壊現象を徹底的に研究し,エントロピー力学に影響を及ぼす要因を同定し,早期エントロピー崩壊の緩和が試験性能の向上に重要であることを示す。
コミュニティリサーチをサポートするため、私たちは、モデルの重み付け、トレーニングコード、トレーニングデータセットを完全にオープンソースにしています。
関連論文リスト
- Teaching LLM to Reason: Reinforcement Learning from Algorithmic Problems without Code [76.80306464249217]
本稿では,LLMにより良い理性を教えることを目的としたTeaRを提案する。
TeaRは、注意深いデータキュレーションと強化学習を活用して、コード関連のタスクを通じて最適な推論パスを発見するモデルをガイドする。
我々は、2つのベースモデルと3つの長いCoT蒸留モデルを用いて広範な実験を行い、モデルのサイズは15億から32億のパラメータから、Math、Knowledge、Code、Logical Reasoningにまたがる17のベンチマークにまたがる。
論文 参考訳(メタデータ) (2025-07-10T07:34:05Z) - AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning [50.02117478165099]
大規模強化学習は, 強大・中小モデルの推論能力を大幅に向上させることができることを示す。
まずは算数のみのプロンプト、次にコードのみのプロンプトのトレーニングを行う。
論文 参考訳(メタデータ) (2025-05-22T08:50:47Z) - Reinforcement Learning for Reasoning in Large Language Models with One Training Example [133.018487956408]
1つのトレーニング例(1ショットRLVR)を用いた強化学習は,大規模言語モデル(LLM)の数学的推論能力の向上に有効であることを示す。
1ショットRLVRにおける興味深い現象として、クロスドメインの一般化、自己回帰の頻度の増大、トレーニング精度が飽和した後もテスト性能の向上が維持されていることを挙げる。
論文 参考訳(メタデータ) (2025-04-29T09:24:30Z) - Light-R1: Curriculum SFT, DPO and RL for Long COT from Scratch and Beyond [14.372747932761754]
本稿では、長い推論モデルをトレーニングするためのオープンソースのスイートであるLight-R1を紹介する。
カリキュラムの学習は、多段階のポストトレーニングと組み合わせて、データの難易度を徐々に高めていく。
最終的なLight-R1-14B-DSは,AIME24と25のスコアが74.0,60.2の14Bモデル間でSOTA性能を実現している。
論文 参考訳(メタデータ) (2025-03-13T15:29:22Z) - An Empirical Study on Eliciting and Improving R1-like Reasoning Models [90.52239241349504]
RLトレーニングのスケーリングは、そのような推論モデルを実装するための中心的なテクニックとなっている。
我々のRLトレーニングアプローチはQwen2.5-32Bベースモデルを継続的に改善することを示した。
また、ツール操作の利用についても検討し、大きな推論モデルの推論性能を大幅に向上させることを見出した。
論文 参考訳(メタデータ) (2025-03-06T15:34:27Z) - ACECODER: Acing Coder RL via Automated Test-Case Synthesis [36.740393665032954]
既存のコードデータから広範な(問い合わせ、テストケース)ペアを生成するパイプラインを設計します。
我々は,Bradley-Terry損失を伴う報酬モデルをトレーニングするために,サンプルプログラムのパスレートに基づいて選好ペアを構築した。
RLトレーニングは,80段階の最適化ステップにおいて,HumanEval+を25%以上,MBPP+を6%以上改善できることを示す。
論文 参考訳(メタデータ) (2025-02-03T18:46:04Z) - Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。
我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。
人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文 参考訳(メタデータ) (2023-10-02T09:47:40Z) - Utilizing Ensemble Learning for Performance and Power Modeling and
Improvement of Parallel Cancer Deep Learning CANDLE Benchmarks [0.0]
本稿では,アンサンブル学習を用いて,線形,非線形,木/木に基づく機械学習手法を組み合わせる。
2つの並列癌ディープラーニングCANDLEベンチマーク(NT3とP1B2)のために収集したデータセットを使用する。
P1B2は最大61.15%,P1B2は最大62.58%,P1B2は最大55.81%,NT3は最大52.60%の省エネルギーを実現した。
論文 参考訳(メタデータ) (2020-11-12T21:18:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。