論文の概要: MiMo: Unlocking the Reasoning Potential of Language Model -- From Pretraining to Posttraining
- arxiv url: http://arxiv.org/abs/2505.07608v1
- Date: Mon, 12 May 2025 14:30:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.42925
- Title: MiMo: Unlocking the Reasoning Potential of Language Model -- From Pretraining to Posttraining
- Title(参考訳): MiMo: 言語モデルの推論ポテンシャルを解き放つ - 事前トレーニングからポストトレーニングまで
- Authors: Xiaomi LLM-Core Team, :, Bingquan Xia, Bowen Shen, Cici, Dawei Zhu, Di Zhang, Gang Wang, Hailin Zhang, Huaqiu Liu, Jiebao Xiao, Jinhao Dong, Liang Zhao, Peidian Li, Peng Wang, Shihua Yu, Shimao Chen, Weikun Wang, Wenhan Ma, Xiangwei Deng, Yi Huang, Yifan Song, Zihan Jiang, Bowen Ye, Can Cai, Chenhong He, Dong Zhang, Duo Zhang, Guoan Wang, Hao Tian, Haochen Zhao, Heng Qu, Hongshen Xu, Jun Shi, Kainan Bao, QingKai Fang, Kang Zhou, Kangyang Zhou, Lei Li, Menghang Zhu, Nuo Chen, Qiantong Wang, Shaohui Liu, Shicheng Li, Shuhao Gu, Shuhuai Ren, Shuo Liu, Sirui Deng, Weiji Zhuang, Weiwei Lv, Wenyu Yang, Xin Zhang, Xing Yong, Xing Zhang, Xingchen Song, Xinzhe Xu, Xu Wang, Yihan Yan, Yu Tu, Yuanyuan Tian, Yudong Wang, Yue Yu, Zhenru Lin, Zhichao Song, Zihao Yue,
- Abstract要約: 提案するMiMo-7Bは,学習前の段階と学習後の段階にまたがって最適化された,推論タスクのための大規模言語モデルである。
MiMo-7B-Baseは25兆のトークンで事前訓練されており、性能の向上と推論速度の高速化を目標としている。
最後のRLチューニングモデルであるMiMo-7B-RLは、OpenAI o1-miniの性能を上回り、数学、コード、一般的な推論タスクにおいて優れたパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 66.10635181116766
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present MiMo-7B, a large language model born for reasoning tasks, with optimization across both pre-training and post-training stages. During pre-training, we enhance the data preprocessing pipeline and employ a three-stage data mixing strategy to strengthen the base model's reasoning potential. MiMo-7B-Base is pre-trained on 25 trillion tokens, with additional Multi-Token Prediction objective for enhanced performance and accelerated inference speed. During post-training, we curate a dataset of 130K verifiable mathematics and programming problems for reinforcement learning, integrating a test-difficulty-driven code-reward scheme to alleviate sparse-reward issues and employing strategic data resampling to stabilize training. Extensive evaluations show that MiMo-7B-Base possesses exceptional reasoning potential, outperforming even much larger 32B models. The final RL-tuned model, MiMo-7B-RL, achieves superior performance on mathematics, code and general reasoning tasks, surpassing the performance of OpenAI o1-mini. The model checkpoints are available at https://github.com/xiaomimimo/MiMo.
- Abstract(参考訳): 提案するMiMo-7Bは,学習前の段階と学習後の段階にまたがって最適化された,推論タスクのための大規模言語モデルである。
事前学習中、我々はデータ前処理パイプラインを強化し、ベースモデルの推論可能性を強化するために3段階のデータ混合戦略を採用する。
MiMo-7B-Baseは25兆のトークンで事前訓練されており、性能の向上と推論速度の高速化を目標としている。
ポストトレーニング中に、強化学習のための130Kの検証可能な数学とプログラミングの問題のデータセットをキュレートし、スパース・リワード問題を緩和するためにテスト拡散型コード・リワード・スキームを統合し、トレーニングを安定させるために戦略データリサンプリングを採用する。
大規模な評価では、MiMo-7B-Baseは例外的な推論能力を持ち、さらに大きな32Bモデルよりも優れていた。
最後のRLチューニングモデルであるMiMo-7B-RLは、OpenAI o1-miniの性能を上回り、数学、コード、一般的な推論タスクにおいて優れたパフォーマンスを達成する。
モデルチェックポイントはhttps://github.com/xiaomimimo/MiMo.comで入手できる。
関連論文リスト
- Overtrained Language Models Are Harder to Fine-Tune [64.44743256512237]
大規模言語モデルは、成長を続けるトークン予算に基づいて事前訓練されている。
事前トレーニングの拡張により、モデルを微調整しにくくなり、最終的なパフォーマンスが低下することを示した。
論文 参考訳(メタデータ) (2025-03-24T23:11:56Z) - 2 OLMo 2 Furious [126.72656187302502]
OLMo 2には、アーキテクチャとトレーニングのレシピを改善した密集した自己回帰モデルが含まれている。
我々の最新の事前学習データミックスは、Dolmino Mix 1124と呼ばれる新しい特殊なデータミックスを導入しました。
完全にオープンなOLMo 2-Instructモデルは、同等の大きさのオープンウェイトモデルに匹敵するか、上回っている。
論文 参考訳(メタデータ) (2024-12-31T21:55:10Z) - Training Dynamics of a 1.7B LLaMa Model: A Data-Efficient Approach [10.39475177812483]
約200億個のデータに対するDMaS-LLaMa-Liteのトレーニングから得られた洞察を共有します。
我々は、検証損失レベルとダウンストリームベンチマークの進化が、不整合テキストから、流動的で文脈に根ざしたアウトプットへの移行を反映しているかを記述した、完全なトレーニングの軌跡を詳述する。
これらの経験を詳述し、トレーニングログ、チェックポイント、サンプルアウトプットを提供することで、将来の研究者や実践者が事前学習戦略を洗練することを目指している。
論文 参考訳(メタデータ) (2024-12-17T21:15:52Z) - Llama 3 Meets MoE: Efficient Upcycling [1.8337958765930928]
本研究では,Llama 3-8B から 8-Expert Top-2 MoE モデルをトレーニングし,事前学習の典型的な計算値の 1% 以下で,事前学習した高密度チェックポイントを活用する効率的なトレーニングレシピを提案する。
提案手法は,学術ベンチマークのダウンストリーム性能を向上し,MMLUの0ショット精度を$textbf2%で向上させる。
トレーニング済み重量をシームレスに使用するために、NeMoのオンラインアップサイクルも統合し、高容量のMoEモデルの開発に費用対効果が期待できる。
論文 参考訳(メタデータ) (2024-12-13T08:22:19Z) - What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。