論文の概要: Phi-4-Mini-Reasoning: Exploring the Limits of Small Reasoning Language Models in Math
- arxiv url: http://arxiv.org/abs/2504.21233v1
- Date: Wed, 30 Apr 2025 00:04:35 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-05-02 15:53:27.231383
- Title: Phi-4-Mini-Reasoning: Exploring the Limits of Small Reasoning Language Models in Math
- Title(参考訳): Phi-4-Mini-Reasoning:数学における小さな推論言語モデルの限界を探る
- Authors: Haoran Xu, Baolin Peng, Hany Awadalla, Dongdong Chen, Yen-Chun Chen, Mei Gao, Young Jin Kim, Yunsheng Li, Liliang Ren, Yelong Shen, Shuohang Wang, Weijian Xu, Jianfeng Gao, Weizhu Chen,
- Abstract要約: CoT(Chain-of-Thought)は大規模言語モデル(LLM)の形式推論能力を著しく向上させる
しかし、Small Language Models (SLM) における推論の改善は、モデル能力が限られているため、依然として困難である。
本研究では,(1)多種多様な蒸留長CoTデータによる大規模中等教育,(2)高品質長CoTデータによる微調整,(3)厳格な選好データセットを活用したロールアウトDPO,(4)検証リワードを用いた強化学習(RL)の4段階からなるSLMの体系的トレーニングレシピを提案する。
- 参考スコア(独自算出の注目度): 135.1260782461186
- License:
- Abstract: Chain-of-Thought (CoT) significantly enhances formal reasoning capabilities in Large Language Models (LLMs) by training them to explicitly generate intermediate reasoning steps. While LLMs readily benefit from such techniques, improving reasoning in Small Language Models (SLMs) remains challenging due to their limited model capacity. Recent work by Deepseek-R1 demonstrates that distillation from LLM-generated synthetic data can substantially improve the reasoning ability of SLM. However, the detailed modeling recipe is not disclosed. In this work, we present a systematic training recipe for SLMs that consists of four steps: (1) large-scale mid-training on diverse distilled long-CoT data, (2) supervised fine-tuning on high-quality long-CoT data, (3) Rollout DPO leveraging a carefully curated preference dataset, and (4) Reinforcement Learning (RL) with Verifiable Reward. We apply our method on Phi-4-Mini, a compact 3.8B-parameter model. The resulting Phi-4-Mini-Reasoning model exceeds, on math reasoning tasks, much larger reasoning models, e.g., outperforming DeepSeek-R1-Distill-Qwen-7B by 3.2 points and DeepSeek-R1-Distill-Llama-8B by 7.7 points on Math-500. Our results validate that a carefully designed training recipe, with large-scale high-quality CoT data, is effective to unlock strong reasoning capabilities even in resource-constrained small models.
- Abstract(参考訳): CoT(Chain-of-Thought)は、中間的推論ステップを明示的に生成するようにトレーニングすることで、LLM(Large Language Models)の形式的推論能力を著しく向上させる。
LLMはそのような手法の恩恵を受けやすいが、Small Language Models (SLM) における推論の改善は、モデル能力が限られているため、依然として困難である。
近年のDeepseek-R1による研究は、LLM生成合成データからの蒸留がSLMの推論能力を大幅に向上させることを示した。
しかし、詳細は明らかにされていない。
本研究では,(1)多種多様な蒸留長CoTデータによる大規模中等教育,(2)高品質の長CoTデータによる微調整,(3)慎重にキュレートされた選好データセットを活用したロールアウトDPO,(4)強化学習(RL)の4段階からなるSLMの体系的なトレーニングレシピを提案する。
提案手法をコンパクト3.8BパラメータモデルであるPhi-4-Miniに適用する。
結果のPhi-4-Mini-Reasoningモデルは、数学推論タスクにおいて、より大きな推論モデルであるDeepSeek-R1-Distill-Qwen-7Bを3.2ポイント、DeepSeek-R1-Distill-Llama-8Bを7.7ポイント上回る。
提案手法は, 資源制約の小さいモデルであっても, 高精度なCoTデータを用いて, 厳密に設計したトレーニングレシピが, 強力な推論能力を解き放つのに有効であることを示す。
関連論文リスト
- Phi-4-reasoning Technical Report [42.508165017775]
Phi-4-reasoningは14ビリオンのパラメータ推論モデルであり、複雑な推論タスクにおいて高い性能を実現する。
我々はPhi-4-reasoning-plusを開発した。
どちらのモデルもDeepSeek-R1-Distill-Llama-70Bモデルのような大きなオープンウェイトモデルよりも優れており、完全なDeepSeek-R1モデルのパフォーマンスレベルに近づいている。
論文 参考訳(メタデータ) (2025-04-30T05:05:09Z) - ToM-RL: Reinforcement Learning Unlocks Theory of Mind in Small LLMs [14.29992535286614]
ルールに基づく強化学習は、小規模言語モデルにおいても、理論・オブ・マインド(ToM)推論能力を解き放つことができることを示す。
RLでトレーニングされた7Bモデルは、GPT-4oやDeepSeek-v3といったモデルを上回る、Hi-ToMベンチマークで84.50%の精度を実現しています。
これらの結果は、RLが社会的認知的推論を強化し、構造的問題解決とニュアンス的社会的推論のギャップを埋める可能性を強調している。
論文 参考訳(メタデータ) (2025-04-02T12:58:42Z) - Reinforcement Learning for Reasoning in Small LLMs: What Works and What Doesn't [0.0]
小型言語モデル(LLM)における強化学習による推論改善の可能性について検討した。
24時間以内に4つのNVIDIA A40 GPU(それぞれ48GB VRAM)をトレーニングした結果、素早い推論が向上した。
これらの結果から, 小型LLMに対するRLを用いた微調整の有効性が明らかとなり, 大規模アプローチに対する費用対効果が示唆された。
論文 参考訳(メタデータ) (2025-03-20T15:13:23Z) - Phi-4-Mini Technical Report: Compact yet Powerful Multimodal Language Models via Mixture-of-LoRAs [195.24565517943802]
我々はPhi-4-MiniとPhi-4-Multimodalを導入し、コンパクトだが高機能な言語とマルチモーダルモデルを提案する。
Phi-4-Miniは、高品質なウェブおよび合成データに基づいて訓練された3.8ビリオンパラメータ言語モデルである。
Phi-4-Multimodalは、テキスト、ビジョン、音声、音声の入力モーダルを単一のモデルに統合するマルチモーダルモデルである。
論文 参考訳(メタデータ) (2025-03-03T17:05:52Z) - Unveiling the Key Factors for Distilling Chain-of-Thought Reasoning [33.02060729778806]
小型言語モデル(SLM)におけるCoT蒸留の影響要因について検討した。
その結果, SLM は粒度と非単調な関係を示し, より微細な推論とより弱いモデルにより, より単純なCoT 監督下でより優れた性能を示すことがわかった。
これらの知見は、特定の学生モデルにCoT戦略を適合させることの必要性を強調し、SLMにおけるCoT蒸留を最適化するための実用的な洞察を提供する。
論文 参考訳(メタデータ) (2025-02-25T09:08:45Z) - MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies [85.57899012821211]
SLM(Small Language Models)は、LLM(Large Language Models)に代わるリソース効率の高いモデルである。
我々はMiniCPM、特に1.2Bと2.4Bの非埋め込みパラメータの変種を紹介する。
また、MiniCPM-DPO、MiniCPM-MoE、MiniCPM-128Kを含むMiniCPMファミリーについても紹介する。
論文 参考訳(メタデータ) (2024-04-09T15:36:50Z) - Mixed Distillation Helps Smaller Language Model Better Reasoning [27.934081882868902]
本稿では,大規模言語モデル (LLM) におけるプログラム・オブ・シント (PoT) とチェーン・オブ・シント (CoT) の強みを生かした混合蒸留 (MD) フレームワークを紹介する。
実験の結果, MDは, 様々なタスクにおいて, より小さなモデルのシングルパスとマルチパス推論能力を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2023-12-17T14:28:28Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - Knowledge-Augmented Reasoning Distillation for Small Language Models in
Knowledge-Intensive Tasks [90.11273439036455]
大規模言語モデル(LLM)は知識集約推論タスクにおいて有望なパフォーマンスを示している。
外部知識ベースから得られた知識を付加したLPMから理性を生成するための,小型LMを微調整する新しい手法であるKARDを提案する。
我々は,KARDが知識集約型推論データセットにおいて,小さなT5モデルとGPTモデルの性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2023-05-28T13:00:00Z) - PaD: Program-aided Distillation Can Teach Small Models Reasoning Better than Chain-of-thought Fine-tuning [20.59775450213501]
本稿では, 蒸留データの誤りを抑えるための推論プログラムを導入したPaD(Program-Aided Distillation)を提案する。
算術的推論,記号的推論,一般能力に基づいてPaDを評価する。
論文 参考訳(メタデータ) (2023-05-23T10:11:56Z) - Distilling Step-by-Step! Outperforming Larger Language Models with Less
Training Data and Smaller Model Sizes [91.58845026796149]
大規模言語モデルを上回る小さなモデルを訓練する新しいメカニズムであるDistilling Step-by-stepを導入する。
4つのNLPベンチマークで3つの結果を得た。
論文 参考訳(メタデータ) (2023-05-03T17:50:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。