論文の概要: Every Activation Boosted: Scaling General Reasoner to 1 Trillion Open Language Foundation
- arxiv url: http://arxiv.org/abs/2510.22115v1
- Date: Sat, 25 Oct 2025 01:51:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:14.824572
- Title: Every Activation Boosted: Scaling General Reasoner to 1 Trillion Open Language Foundation
- Title(参考訳): すべてのアクティベーションが向上 - ジェネラル推論を1兆のオープン言語財団に拡張
- Authors: Ling-Team, Ang Li, Ben Liu, Binbin Hu, Bing Li, Bingwei Zeng, Borui Ye, Caizhi Tang, Changxin Tian, Chao Huang, Chao Zhang, Chen Qian, Chenchen Ju, Chenchen Li, Chengfu Tang, Chili Fu, Chunshao Ren, Chunwei Wu, Cong Zhang, Cunyin Peng, Dafeng Xu, Daixin Wang, Dalong Zhang, Dingnan Jin, Dingyuan Zhu, Dongke Hu, Fangzheng Zhao, Feifan Wu, Feng Zhu, Gangshan Wang, Haitao Zhang, Hailin Zhao, Hanxiao Zhang, Hanzi Wang, Hao Qian, Haoyi Yu, Heng Zhang, Hongliang Zhang, Hongzhi Luan, Huirong Dong, Huizhong Li, Jia Li, Jia Liu, Jialong Zhu, Jian Sha, Jianping Wei, Jiaolong Yang, Jieyue Ma, Jiewei Wu, Jinjing Huang, Jingyun Tian, Jingyuan Zhang, Jinquan Sun, Juanhui Tu, Jun Liu, Jun Xu, Jun Zhou, Junjie Ou, Junpeng Fang, Kaihong Zhang, Kaiqin Hu, Ke Shi, Kun Tang, Kunlong Chen, Lanyin Mei, Lei Liang, Lei Xu, Libo Zhang, Lin Ju, Lin Yuan, Ling Zhong, Lintao Ma, Lu Liu, Lu Yu, Lun Cai, Meiqi Zhu, Mengying Li, Min Chen, Minghao Xue, Minghong Cai, Mingming Yin, Peijie Jiang, Peilong Zhao, Pingping Liu, Qian Zhao, Qing Cui, Qingxiang Huang, Qingyuan Yang, Quankun Yu, Shaowei Wei, Shijie Lian, Shoujian Zheng, Shun Song, Shungen Zhang, Shuo Zhang, Siyuan Li, Song Liu, Ting Guo, Tong Zhao, Wanli Gu, Weichang Wu, Weiguang Han, Wenjing Fang, Wubin Wang, Xiang Shu, Xiao Shi, Xiaoshun Lan, Xiaolu Zhang, Xiaqing Sun, Xin Zhao, Xingyu Lu, Xiong Xu, Xudong Wang, Xudong Wang, Xuemin Yang, Yajie Yang, Yang Xiang, Yanzhe Li, Yi Zhang, Yilong Wang, Yingxue Li, Yongzhen Guo, Yuzhuo Fu, Yuanyuan Wang, Yue Yang, Yue Yu, Yufeng Deng, Yun Zhang, Yunfei Xu, Yuqi Zhang, Yuxiao He, Zengke Gui, Zhaoxin Huan, Zhaoyang Wang, Zhibo Zhu, Zhihao Wang, Zhiqiang Zhang, Zhoufei Wang, Zihang Zeng, Ziqi Liu, Zitao Xuan, Zuoli Tang,
- Abstract要約: Ling 2.0は、すべてのアクティベーションが推論能力を促進するという原則に基づいて構築された一連の推論指向の言語基盤である。
Ling 2.0は、経験的スケーリング法則によって導かれる、高い分散性、クロススケール一貫性、効率性を強調している。
シリーズには、Ling-mini-2.0、Ling-flash-2.0、Ling-1Tの3つの非思考モデルが含まれている。
- 参考スコア(独自算出の注目度): 149.0177704422991
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Ling 2.0, a series reasoning-oriented language foundation built upon the principle that every activation boosts reasoning capability. Designed to scale from tens of billions to one trillion parameters under a unified Mixture-of-Experts (MoE) paradigm, Ling 2.0 emphasizes high sparsity, cross-scale consistency, and efficiency guided by empirical scaling laws. The series includes three non-thinking (instruct) models - Ling-mini-2.0, Ling-flash-2.0, and Ling-1T - ranging from 16B to 1T total parameters and achieving up to 7-fold active-compute efficiency compared with dense counterparts. Ling 2.0 integrates coordinated innovations across model architecture, pre-training, post-training, and infrastructure: a high-sparsity MoE with MTP for efficient reasoning, reasoning-oriented data and mid-training CoT activation, reinforcement-based fine-tuning (DFT, Evo-CoT), and full-scale FP8 training with fine-grained heterogeneous pipelines. At the trillion scale, Ling-1T establishes a new Pareto frontier of reasoning accuracy versus computational efficiency, demonstrating that sparse activation, when properly aligned with reasoning objectives, enables scalable and efficient intelligence. Collectively, Ling 2.0 provides a coherent, open, and efficient foundation for advancing future reasoning and thinking models, including the Ring series built upon the same base.
- Abstract(参考訳): 我々は、すべてのアクティベーションが推論能力を促進するという原則に基づいて構築された一連の推論指向言語基盤であるLing 2.0を紹介します。
統一されたMixture-of-Experts(MoE)パラダイムの下で、数千億から1兆のパラメータにスケールするために設計されたLing 2.0は、経験的スケーリング法則によって導かれる高空間性、クロススケール一貫性、効率性を強調している。
シリーズには、Ling-mini-2.0、Ling-flash-2.0、Ling-1Tの3つの非思考モデルが含まれている。
Ling 2.0は、モデルアーキテクチャ、事前トレーニング、後トレーニング、インフラストラクチャ間の協調的なイノベーションを統合している。効率的な推論、推論指向データ、中間トレーニングのCoTアクティベーションのためのMTPを備えた高分離のMoE、強化ベースの微細チューニング(DFT、Evo-CoT)、きめ細かいヘテロジニアスパイプラインによるフルスケールFP8トレーニングである。
1兆のスケールで、Ling-1Tは推論精度と計算効率の新たなParetoフロンティアを確立し、推論目標に適切に合わせると、疎活性化がスケーラブルで効率的なインテリジェンスを実現することを示した。
まとめると、Ling 2.0は、同じベース上に構築されたRingシリーズを含む将来の推論と思考モデルを進めるための一貫性があり、オープンで効率的な基盤を提供する。
関連論文リスト
- Every Attention Matters: An Efficient Hybrid Architecture for Long-Context Reasoning [73.10669391954801]
本稿では、Ring-mini-linear-2.0およびRing-flash-linear-2.0を含むRing-linearモデルシリーズについて述べる。
どちらのモデルも線形アテンションとソフトマックスアテンションを効果的に統合するハイブリッドアーキテクチャを採用している。
32億のパラメータ密度モデルと比較して、このシリーズは推論コストを1/10に削減し、元のRingシリーズと比較すると、コストも50%以上削減される。
論文 参考訳(メタデータ) (2025-10-22T07:59:38Z) - Every Step Evolves: Scaling Reinforcement Learning for Trillion-Scale Thinking Model [100.86587937568832]
Ring-1Tは、数兆のパラメータを持つ最初のオープンソースの最先端の思考モデルである。
総パラメータは1兆で、1トークンあたり約500億を活性化する。
論文 参考訳(メタデータ) (2025-10-21T17:46:14Z) - Towards Greater Leverage: Scaling Laws for Efficient Mixture-of-Experts Language Models [25.608085561102566]
本稿では,高密度等価量上でのMoEモデルの計算優位性を定量化する指標として,レバレッジ効率(EL)を紹介する。
ELは、予測可能な電力法に従って、専門家のアクティベーション比と総計算予算によって駆動される。
我々はこれらの発見を統合スケーリング法則に統合し、その構成に基づいてMoEアーキテクチャのELを正確に予測する。
論文 参考訳(メタデータ) (2025-07-23T17:10:23Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。