論文の概要: MobileLLM-R1: Exploring the Limits of Sub-Billion Language Model Reasoners with Open Training Recipes
- arxiv url: http://arxiv.org/abs/2509.24945v2
- Date: Tue, 30 Sep 2025 18:16:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-02 12:11:26.794952
- Title: MobileLLM-R1: Exploring the Limits of Sub-Billion Language Model Reasoners with Open Training Recipes
- Title(参考訳): MobileLLM-R1:オープントレーニングレシピ付きサブビリオン言語モデル推論の限界を探る
- Authors: Changsheng Zhao, Ernie Chang, Zechun Liu, Chia-Jung Chang, Wei Wen, Chen Lai, Sheng Cao, Yuandong Tian, Raghuraman Krishnamoorthi, Yangyang Shi, Vikas Chandra,
- Abstract要約: 強い推論能力は、はるかに少ないデータで実現可能であることを示す。
MobileLLM-R50MのAIMEスコアは15.5であり、OLMo-2-1.48Bは0.6、SmolLM-2-1.7Bは0.3である。
- 参考スコア(独自算出の注目度): 60.57770396565211
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The paradigm shift in large language models (LLMs) from instinctive responses to chain-of-thought (CoT) reasoning has fueled two prevailing assumptions: (1) reasoning capabilities only emerge in sufficiently large models, and (2) such capabilities require training on massive datasets. While the first assumption has already been challenged by recent sub-billion-parameter reasoning models such as Qwen3-0.6B and DeepSeek distilled variants, the second remains largely unquestioned. In this work, we revisit the necessity of scaling to extremely large corpora (>10T tokens) for reasoning emergence. By carefully curating and resampling open-source datasets that we identify as beneficial under our designed metrics, we demonstrate that strong reasoning abilities can emerge with far less data. Specifically, we show that only ~2T tokens of high-quality data are sufficient, and pre-training with 4.2T tokens on the dataset resampled from these ~2T tokens, followed by a established post-training procedure, enables the development of MobileLLM-R1, a series of sub-billion-parameter reasoning models that substantially outperform prior models trained on fully open-sourced data. For example, MobileLLM-R1-950M achieves an AIME score of 15.5, compared to just 0.6 for OLMo-2-1.48B and 0.3 for SmolLM-2-1.7B. Remarkably, despite being trained on only 11.7% of the tokens compared to Qwen3's proprietary 36T-token corpus for pretraining, MobileLLM-R1-950M matches or surpasses Qwen3-0.6B across multiple reasoning benchmarks. To facilitate further research in this direction, we have released the complete training recipe, data sources, data mixing ratio, and model checkpoints, together with the key insights obtained throughout this study.
- Abstract(参考訳): 大規模言語モデル(LLM)の本能的応答からチェーン・オブ・思想的推論(CoT)へのパラダイムシフトは,(1)推論能力が十分に大きなモデルにのみ現れること,(2)そのような能力は大規模なデータセットのトレーニングを必要とすること,という2つの一般的な仮定を刺激している。
第1の仮定は、Qwen3-0.6BやDeepSeekの蒸留変種のような最近のサブビリオンパラメータ推論モデルによって既に挑戦されているが、第2の仮定は疑問の余地がほとんどない。
本研究では,非常に大きなコーパス(>10Tトークン)へのスケーリングの必要性を再考する。
設計したメトリクスの下で有益であると認識したオープンソースのデータセットを慎重にキュレートし、再サンプリングすることで、強い推論能力がはるかに少ないデータで現れることを実証します。
具体的には、高品質なデータの ~2T トークンだけで十分であることを示し、これらの ~2T トークンから再サンプリングされたデータセットに 4.2T トークンを事前トレーニングし、続いて確立されたポストトレーニング手順により、完全にオープンソースでトレーニングされた事前モデルよりも大幅に優れている一連のサブビリオンパラメータ推論モデルである MobileLLM-R1 の開発を可能にする。
例えば、MobileLLM-R1-950Mは、OLMo-2-1.48Bは0.6、SmolLM-2-1.7Bは0.3、AIMEスコアは15.5である。
注目すべきは、Qwen3のプロプライエタリな36Tトークンコーパスと比較して、トークンの11.7%しかトレーニングされていないにもかかわらず、MobileLLM-R1-950Mは複数の推論ベンチマークでQwen3-0.6Bを上回っていることである。
この方向のさらなる研究を容易にするため、本研究で得られた重要な知見とともに、完全なトレーニングレシピ、データソース、データ混合率、モデルチェックポイントを公表した。
関連論文リスト
- Not All Correct Answers Are Equal: Why Your Distillation Source Matters [16.441081996257576]
蒸留は、オープンソースの言語モデルの推論能力を高めるための実用的で効果的なアプローチとして登場した。
我々は,最先端の教師モデルであるAM-Thinking-v1,Qwen3-235B-A22B,DeepSeek-R1の3つの出力を1億9900万クエリの共有コーパスで収集した。
各データセットでトレーニングされた学生モデルは、AIME2024、AIME2025、MATH500、LiveCodeBenchなどの推論ベンチマークに基づいて評価される。
論文 参考訳(メタデータ) (2025-05-20T15:00:51Z) - R1-Zero's "Aha Moment" in Visual Reasoning on a 2B Non-SFT Model [70.77691645678804]
非SFT 2Bモデルのみを用いたマルチモーダル推論における創発的特性の再現に成功した最初の例を示す。
本モデルはCVBenchで59.47%の精度を達成し, ベースモデルを約30%, SFT設定を2%以上上回った。
さらに,RLとインストラクションモデルを用いてR1のような推論を行おうとする試みの失敗と知見を共有した。
論文 参考訳(メタデータ) (2025-03-07T04:21:47Z) - LIMR: Less is More for RL Scaling [25.477841726836836]
学習影響測定(Learning Impact Measurement, LIM)は, 学習サンプルを評価・優先順位付けする自動手法である。
提案手法は,1,389個のサンプルと8,523個のサンプルの完全なデータセットとを比較して,同等あるいは優れた性能を実現する。
再現可能な研究と今後のイノベーションのために、LIMRをオープンソース化しています。LIMRの実装、トレーニングと評価コード、キュレートされたデータセット、トレーニングされたモデルなどです。
論文 参考訳(メタデータ) (2025-02-17T15:13:29Z) - T1: Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling [52.34735382627312]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示した。
既存のアプローチは主に、効果的なテストタイムスケーリングを達成するために、模倣学習と苦労に依存しています。
我々は、探索を奨励し、推論スケーリングを理解することで、強化学習をスケールするためにT1を提案する。
論文 参考訳(メタデータ) (2025-01-20T18:33:33Z) - TextSquare: Scaling up Text-Centric Visual Instruction Tuning [62.878378882175284]
大規模かつ高品質な命令チューニングデータセットSquare-10Mを作成するための新しいアプローチを提案する。
われわれのモデルであるTextSquareは、最先端のText中心のMLLMをはるかに上回っている。
さらに、GPT4VやGeminiといったトップクラスのモデルでは、テキスト中心のベンチマークを10つ中6つで上回っている。
論文 参考訳(メタデータ) (2024-04-19T11:38:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。