論文の概要: MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention
- arxiv url: http://arxiv.org/abs/2506.13585v1
- Date: Mon, 16 Jun 2025 15:08:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:48.786895
- Title: MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention
- Title(参考訳): MiniMax-M1: ライトニングによるテスト時間計算の高速化
- Authors: MiniMax, :, Aili Chen, Aonian Li, Bangwei Gong, Binyang Jiang, Bo Fei, Bo Yang, Boji Shan, Changqing Yu, Chao Wang, Cheng Zhu, Chengjun Xiao, Chengyu Du, Chi Zhang, Chu Qiao, Chunhao Zhang, Chunhui Du, Congchao Guo, Da Chen, Deming Ding, Dianjun Sun, Dong Li, Enwei Jiao, Haigang Zhou, Haimo Zhang, Han Ding, Haohai Sun, Haoyu Feng, Huaiguang Cai, Haichao Zhu, Jian Sun, Jiaqi Zhuang, Jiaren Cai, Jiayuan Song, Jin Zhu, Jingyang Li, Jinhao Tian, Jinli Liu, Junhao Xu, Junjie Yan, Junteng Liu, Junxian He, Kaiyi Feng, Ke Yang, Kecheng Xiao, Le Han, Leyang Wang, Lianfei Yu, Liheng Feng, Lin Li, Lin Zheng, Linge Du, Lingyu Yang, Lunbin Zeng, Minghui Yu, Mingliang Tao, Mingyuan Chi, Mozhi Zhang, Mujie Lin, Nan Hu, Nongyu Di, Peng Gao, Pengfei Li, Pengyu Zhao, Qibing Ren, Qidi Xu, Qile Li, Qin Wang, Rong Tian, Ruitao Leng, Shaoxiang Chen, Shaoyu Chen, Shengmin Shi, Shitong Weng, Shuchang Guan, Shuqi Yu, Sichen Li, Songquan Zhu, Tengfei Li, Tianchi Cai, Tianrun Liang, Weiyu Cheng, Weize Kong, Wenkai Li, Xiancai Chen, Xiangjun Song, Xiao Luo, Xiao Su, Xiaobo Li, Xiaodong Han, Xinzhu Hou, Xuan Lu, Xun Zou, Xuyang Shen, Yan Gong, Yan Ma, Yang Wang, Yiqi Shi, Yiran Zhong, Yonghong Duan, Yongxiang Fu, Yongyi Hu, Yu Gao, Yuanxiang Fan, Yufeng Yang, Yuhao Li, Yulin Hu, Yunan Huang, Yunji Li, Yunzhi Xu, Yuxin Mao, Yuxuan Shi, Yuze Wenren, Zehan Li, Zelin Li, Zhanxu Tian, Zhengmao Zhu, Zhenhua Fan, Zhenzhen Wu, Zhichao Xu, Zhihang Yu, Zhiheng Lyu, Zhuo Jiang, Zibo Gao, Zijia Wu, Zijian Song, Zijun Sun,
- Abstract要約: MiniMax-M1は、オープンウェイトで大規模なハイブリッドアテンション推論モデルである。
コンテクストの長さは100万トークンで、DeepSeek R1のコンテクストサイズは8倍だ。
MiniMax-M1は大規模強化学習を用いて訓練されている。
- 参考スコア(独自算出の注目度): 90.68287470551311
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce MiniMax-M1, the world's first open-weight, large-scale hybrid-attention reasoning model. MiniMax-M1 is powered by a hybrid Mixture-of-Experts (MoE) architecture combined with a lightning attention mechanism. The model is developed based on our previous MiniMax-Text-01 model, which contains a total of 456 billion parameters with 45.9 billion parameters activated per token. The M1 model natively supports a context length of 1 million tokens, 8x the context size of DeepSeek R1. Furthermore, the lightning attention mechanism in MiniMax-M1 enables efficient scaling of test-time compute. These properties make M1 particularly suitable for complex tasks that require processing long inputs and thinking extensively. MiniMax-M1 is trained using large-scale reinforcement learning (RL) on diverse problems including sandbox-based, real-world software engineering environments. In addition to M1's inherent efficiency advantage for RL training, we propose CISPO, a novel RL algorithm to further enhance RL efficiency. CISPO clips importance sampling weights rather than token updates, outperforming other competitive RL variants. Combining hybrid-attention and CISPO enables MiniMax-M1's full RL training on 512 H800 GPUs to complete in only three weeks, with a rental cost of just $534,700. We release two versions of MiniMax-M1 models with 40K and 80K thinking budgets respectively, where the 40K model represents an intermediate phase of the 80K training. Experiments on standard benchmarks show that our models are comparable or superior to strong open-weight models such as the original DeepSeek-R1 and Qwen3-235B, with particular strengths in complex software engineering, tool utilization, and long-context tasks. We publicly release MiniMax-M1 at https://github.com/MiniMax-AI/MiniMax-M1.
- Abstract(参考訳): 世界初のオープンウェイトかつ大規模ハイブリッドアテンション推論モデルであるMiniMax-M1を紹介する。
MiniMax-M1はMixture-of-Experts (MoE)アーキテクチャと稲妻の注意機構を組み合わせたものである。
このモデルはこれまでのMiniMax-Text-01モデルに基づいて開発され、トークンごとに459億のパラメータが活性化された46億のパラメータを含む。
M1モデルは、DeepSeek R1のコンテキストサイズの8倍の100万トークンのコンテキスト長をネイティブにサポートする。
さらに、MiniMax-M1の雷注意機構は、テスト時間計算の効率的なスケーリングを可能にする。
これらの特性により、M1は特に長い入力の処理や思考を必要とする複雑なタスクに適している。
MiniMax-M1は、サンドボックスベースの実世界のソフトウェアエンジニアリング環境を含む様々な問題に対して、大規模な強化学習(RL)を使用して訓練されている。
本稿では,M1 の RL 学習における効率性に加えて,新たな RL アルゴリズム CISPO を提案する。
CISPOクリップはトークン更新よりもサンプリング重量が重要であり、他の競合するRLよりも優れている。
ハイブリッドアテンションとCISPOを組み合わせることで、MiniMax-M1の512 H800 GPUでのフルRLトレーニングはわずか3週間で完了する。
我々は40Kと80Kの思考予算を持つMiniMax-M1モデルの2つのバージョンをリリースし、40Kモデルは80Kトレーニングの中間フェーズを表す。
標準ベンチマークの実験では、私たちのモデルは、オリジナルのDeepSeek-R1やQwen3-235Bのような強力なオープンウェイトモデルに匹敵するか、あるいは優れていることが示されています。
MiniMax-M1 を https://github.com/MiniMax-AI/MiniMax-M1 で公開しています。
関連論文リスト
- MT-R1-Zero: Advancing LLM-based Machine Translation via R1-Zero-like Reinforcement Learning [24.59797320737557]
機械翻訳のためのR1-Zero RLフレームワークの最初のオープンソース適応であるMT-R1-Zeroを紹介する。
WMT 24 では、MT-R1-Zero-3B-Mix がタワーインストラクト-7B-v0.2 を平均 1.26 ポイント上回って競争性能を達成した。
本研究は,マルチリンガルおよび低リソース設定を頑健にサポートし,アウト・オブ・ディストリビューションMTタスクの強力な一般化機能を示す。
論文 参考訳(メタデータ) (2025-04-14T12:14:18Z) - MiniMax-01: Scaling Foundation Models with Lightning Attention [59.38940023647236]
MiniMax-Text-01とMiniMax-VL-01は、より長いコンテキストを処理するのに優れた機能を提供する。
MiniMax-Text-01は、トレーニング中に最大100万のトークンに到達でき、推論時に400万のトークンを安価な価格で外挿できる。
私たちのビジョン言語モデルであるMiniMax-VL-01は、512億のビジョン言語トークンによる継続的なトレーニングによって構築されます。
論文 参考訳(メタデータ) (2025-01-14T18:50:05Z) - Drama: Mamba-Enabled Model-Based Reinforcement Learning Is Sample and Parameter Efficient [9.519619751861333]
本稿では,SSM(State Space Model)ベースの世界モデルDramaを提案し,メモリと計算の複雑さを$O(n)$で実現した。
また, 早期のトレーニングにおいて, 誤った世界モデルによって引き起こされる準最適性を緩和する新しいサンプリング手法を提案する。
ドラマは、標準のラップトップのような市販のハードウェアでアクセス可能で、トレーニングできる。
論文 参考訳(メタデータ) (2024-10-11T15:10:40Z) - MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies [85.57899012821211]
SLM(Small Language Models)は、LLM(Large Language Models)に代わるリソース効率の高いモデルである。
我々はMiniCPM、特に1.2Bと2.4Bの非埋め込みパラメータの変種を紹介する。
また、MiniCPM-DPO、MiniCPM-MoE、MiniCPM-128Kを含むMiniCPMファミリーについても紹介する。
論文 参考訳(メタデータ) (2024-04-09T15:36:50Z) - CPM-2: Large-scale Cost-effective Pre-trained Language Models [71.59893315671997]
本稿では, PLM を用いた事前学習, 微調整, 推論の効率性問題に対処するための費用対効果技術について述べる。
我々は,既存のPLMをスクラッチからトレーニングする代わりに活用することで,事前学習プロセスの促進を目的とした知識継承を導入する。
計算資源が限られている大規模PLMに対して,新しい推論ツールキット,すなわちInfMoEを実装した。
論文 参考訳(メタデータ) (2021-06-20T15:43:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。