論文の概要: Every Step Evolves: Scaling Reinforcement Learning for Trillion-Scale Thinking Model
- arxiv url: http://arxiv.org/abs/2510.18855v2
- Date: Sat, 25 Oct 2025 08:21:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 13:14:10.593824
- Title: Every Step Evolves: Scaling Reinforcement Learning for Trillion-Scale Thinking Model
- Title(参考訳): あらゆるステップが進化する: トリリオンスケール思考モデルのための強化学習のスケーリング
- Authors: Ling Team, Anqi Shen, Baihui Li, Bin Hu, Bin Jing, Cai Chen, Chao Huang, Chao Zhang, Chaokun Yang, Cheng Lin, Chengyao Wen, Congqi Li, Deng Zhao, Dingbo Yuan, Donghai You, Fagui Mao, Fanzhuang Meng, Feng Xu, Guojie Li, Guowei Wang, Hao Dai, Haonan Zheng, Hong Liu, Jia Guo, Jiaming Liu, Jian Liu, Jianhao Fu, Jiannan Shi, Jianwen Wang, Jianxin Lai, Jin Yang, Jun Mei, Jun Zhou, Junbo Zhao, Junping Zhao, Kuan Xu, Le Su, Lei Chen, Li Tang, Liang Jiang, Liangcheng Fu, Lianhao Xu, Linfeng Shi, Lisha Liao, Longfei Zheng, Meng Li, Mingchun Chen, Qi Zuo, Qiang Cheng, Qianggang Cao, Qitao Shi, Quanrui Guo, Senlin Zhu, Shaofei Wang, Shaomian Zheng, Shuaicheng Li, Shuwei Gu, Siba Chen, Tao Wu, Tao Zhang, Tianyu Zhang, Tianyu Zhou, Tiwei Bie, Tongkai Yang, Wang Hong, Wang Ren, Weihua Chen, Wenbo Yu, Wengang Zheng, Xiangchun Wang, Xiaodong Yan, Xiaopei Wan, Xin Zhao, Xinyu Kong, Xinyu Tang, Xudong Han, Xudong Wang, Xuemin Yang, Xueyu Hu, Yalin Zhang, Yan Sun, Yicheng Shan, Yilong Wang, Yingying Xu, Yongkang Liu, Yongzhen Guo, Yuanyuan Wang, Yuchen Yan, Yuefan Wang, Yuhong Guo, Zehuan Li, Zhankai Xu, Zhe Li, Zhenduo Zhang, Zhengke Gui, Zhenxuan Pan, Zhenyu Huang, Zhenzhong Lan, Zhiqiang Ding, Zhiqiang Zhang, Zhixun Li, Zhizhen Liu, Zihao Wang, Zujie Wen,
- Abstract要約: Ring-1Tは、数兆のパラメータを持つ最初のオープンソースの最先端の思考モデルである。
総パラメータは1兆で、1トークンあたり約500億を活性化する。
- 参考スコア(独自算出の注目度): 100.86587937568832
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Ring-1T, the first open-source, state-of-the-art thinking model with a trillion-scale parameter. It features 1 trillion total parameters and activates approximately 50 billion per token. Training such models at a trillion-parameter scale introduces unprecedented challenges, including train-inference misalignment, inefficiencies in rollout processing, and bottlenecks in the RL system. To address these, we pioneer three interconnected innovations: (1) IcePop stabilizes RL training via token-level discrepancy masking and clipping, resolving instability from training-inference mismatches; (2) C3PO++ improves resource utilization for long rollouts under a token budget by dynamically partitioning them, thereby obtaining high time efficiency; and (3) ASystem, a high-performance RL framework designed to overcome the systemic bottlenecks that impede trillion-parameter model training. Ring-1T delivers breakthrough results across critical benchmarks: 93.4 on AIME-2025, 86.72 on HMMT-2025, 2088 on CodeForces, and 55.94 on ARC-AGI-1. Notably, it attains a silver medal-level result on the IMO-2025, underscoring its exceptional reasoning capabilities. By releasing the complete 1T parameter MoE model to the community, we provide the research community with direct access to cutting-edge reasoning capabilities. This contribution marks a significant milestone in democratizing large-scale reasoning intelligence and establishes a new baseline for open-source model performance.
- Abstract(参考訳): 数兆のパラメータを持つ最初のオープンソースの最先端思考モデルであるRing-1Tを提案する。
総パラメータは1兆で、1トークンあたり約500億を活性化する。
このようなモデルを1兆パラメータスケールでトレーニングすることは、列車のミスアライメント、ロールアウト処理の非効率性、RLシステムのボトルネックなど、前例のない課題をもたらす。
1)IcePopはトークンレベルの離散性マスキングとクリッピングによるRLトレーニングの安定化,トレーニング推論ミスマッチからの不安定性の解消,2)C3PO++はトークン予算の下での長期ロールアウトにおけるリソース利用の改善により,高速な時間効率を実現するとともに,10兆パラメータモデルトレーニングを阻害するシステム的ボトルネックを克服する高性能なRLフレームワークであるASystemである。
Ring-1Tは、AIME-2025で93.4、HMMT-2025で86.72、CodeForcesで2088、ARC-AGI-1で55.94という重要なベンチマークで画期的な結果をもたらす。
特筆すべきは、IMO-2025で銀メダリストレベルの結果を得たことだ。
コミュニティに完全な1TパラメータMOEモデルを提供することで、最先端の推論機能に直接アクセスできるようにする。
この貢献は、大規模な推論インテリジェンスを民主化し、オープンソースのモデルパフォーマンスの新たなベースラインを確立する上で、重要なマイルストーンとなる。
関連論文リスト
- Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - Skywork Open Reasoner 1 Technical Report [51.403686909760914]
提案するSkywork-OR1は,長期チェーン・オブ・ソート(CoT)モデルのための,効果的かつスケーラブルな強化学習(RL)実装である。
DeepSeek-R1-Distillモデルシリーズをベースとして、我々のRLアプローチは顕著なパフォーマンス向上を実現している。
我々のSkywork-OR1-32Bモデルは、AIME24とAIME25ベンチマークでDeepSeek-R1とQwen3-32Bを上回っています。
論文 参考訳(メタデータ) (2025-05-28T12:56:04Z) - Open-Reasoner-Zero: An Open Source Approach to Scaling Up Reinforcement Learning on the Base Model [47.108822717757945]
ベースモデルを用いた大規模推論指向RLトレーニングのオープンソース実装として,Open-Reasoner-Zeroを紹介した。
ベンチマーク性能と応答長の両方をスケールアップするのには,GAE とルールベース報酬の単純さが,KL 正規化なしで十分であることを示す。
論文 参考訳(メタデータ) (2025-03-31T16:36:05Z) - An Empirical Study on Eliciting and Improving R1-like Reasoning Models [90.52239241349504]
RLトレーニングのスケーリングは、そのような推論モデルを実装するための中心的なテクニックとなっている。
我々のRLトレーニングアプローチはQwen2.5-32Bベースモデルを継続的に改善することを示した。
また、ツール操作の利用についても検討し、大きな推論モデルの推論性能を大幅に向上させることを見出した。
論文 参考訳(メタデータ) (2025-03-06T15:34:27Z) - Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning [65.2421542320293]
推論能力は汎用知能の重要な構成要素である。
OpenAIのoシリーズモデルなどのプロプライエタリ企業による最近の進歩は、推論タスクに顕著な進歩をもたらした。
本稿では、数学的推論タスクのための textbfOutcome textbfREwtextbfArd ベースの強化 textbfLearning により達成できる性能限界を追求する新しい RL フレームワーク OREAL を提案する。
論文 参考訳(メタデータ) (2025-02-10T18:57:29Z) - Optimizing Distributed Training on Frontier for Large Language Models [7.251642875697334]
数十億のパラメータで大規模言語モデル(LLM)を訓練することは、重大な課題となり、かなりの計算資源を必要とする。
本研究では、世界初のエクサスケールスーパーコンピュータであるFrontierからこの計算を抽出するための効率的な分散トレーニング戦略を探求する。
論文 参考訳(メタデータ) (2023-12-20T02:03:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。