論文の概要: MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies
- arxiv url: http://arxiv.org/abs/2404.06395v2
- Date: Mon, 22 Apr 2024 08:26:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 20:47:39.272981
- Title: MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies
- Title(参考訳): MiniCPM: スケーラブルなトレーニング戦略で小さな言語モデルの可能性を明らかにする
- Authors: Shengding Hu, Yuge Tu, Xu Han, Chaoqun He, Ganqu Cui, Xiang Long, Zhi Zheng, Yewei Fang, Yuxiang Huang, Weilin Zhao, Xinrong Zhang, Zheng Leng Thai, Kaihuo Zhang, Chongyi Wang, Yuan Yao, Chenyang Zhao, Jie Zhou, Jie Cai, Zhongwu Zhai, Ning Ding, Chao Jia, Guoyang Zeng, Dahai Li, Zhiyuan Liu, Maosong Sun,
- Abstract要約: SLM(Small Language Models)は、LLM(Large Language Models)に代わるリソース効率の高いモデルである。
我々はMiniCPM、特に1.2Bと2.4Bの非埋め込みパラメータの変種を紹介する。
また、MiniCPM-DPO、MiniCPM-MoE、MiniCPM-128Kを含むMiniCPMファミリーについても紹介する。
- 参考スコア(独自算出の注目度): 85.57899012821211
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The burgeoning interest in developing Large Language Models (LLMs) with up to trillion parameters has been met with concerns regarding resource efficiency and practical expense, particularly given the immense cost of experimentation. This scenario underscores the importance of exploring the potential of Small Language Models (SLMs) as a resource-efficient alternative. In this context, we introduce MiniCPM, specifically the 1.2B and 2.4B non-embedding parameter variants, not only excel in their respective categories but also demonstrate capabilities on par with 7B-13B LLMs. While focusing on SLMs, our approach exhibits scalability in both model and data dimensions for future LLM research. Regarding model scaling, we employ extensive model wind tunnel experiments for stable and optimal scaling. For data scaling, we introduce a Warmup-Stable-Decay (WSD) learning rate scheduler (LRS), conducive to continuous training and domain adaptation. We present an in-depth analysis of the intriguing training dynamics that occurred in the WSD LRS. With WSD LRS, we are now able to efficiently study data-model scaling law without extensive retraining experiments on both axes of model and data, from which we derive the much higher compute optimal data-model ratio than Chinchilla Optimal. Additionally, we introduce MiniCPM family, including MiniCPM-DPO, MiniCPM-MoE and MiniCPM-128K, whose excellent performance further cementing MiniCPM's foundation in diverse SLM applications. MiniCPM models are available publicly at https://github.com/OpenBMB/MiniCPM .
- Abstract(参考訳): 最大1兆のパラメータを持つLarge Language Models (LLMs) の開発への関心は、特に実験の膨大なコストを考慮すると、資源効率と実践的費用に関する懸念に直面している。
このシナリオは、リソース効率の代替手段としてのSLM(Small Language Models)の可能性を探ることの重要性を浮き彫りにしている。
この文脈では、MiniCPM、特に1.2Bと2.4Bの非埋め込みパラメータの変種を導入し、それぞれのカテゴリに優れるだけでなく、7B-13B LLMと同等の機能を示す。
SLMに着目しながら,本手法は将来のLSM研究におけるモデル次元およびデータ次元のスケーラビリティを示す。
モデルスケーリングについては、安定かつ最適なスケーリングのために、広範囲なモデル風洞実験を採用する。
データスケーリングには、継続的トレーニングとドメイン適応に寄与するWarmup-Stable-Decay(WSD)学習率スケジューラ(LRS)を導入する。
本稿では,WSD LRSで発生した興味深いトレーニングダイナミクスを詳細に分析する。
WSD LRSにより、モデル軸とデータ軸の広範な再トレーニング実験をすることなく、データモデルのスケーリング法則を効率的に研究することが可能となり、そこから、Chinchilla Optimalよりもはるかに高い計算最適データモデル比が導出されます。
さらに、MiniCPM-DPO、MiniCPM-MoE、MiniCPM-128Kを含むMiniCPMファミリーを導入し、多様なSLMアプリケーションにおけるMiniCPMの基盤をさらに強化した。
MiniCPMモデルはhttps://github.com/OpenBMB/MiniCPMで公開されている。
関連論文リスト
- Towards Pareto Optimal Throughput in Small Language Model Serving [4.497936996651617]
SLM(Small Language Models)は、リソース制約のあるユーザに対して、新たな機会を提供する。
本研究では,SLM推論を性能およびエネルギーレベルで評価するための一連の実験について述べる。
論文 参考訳(メタデータ) (2024-04-04T10:45:07Z) - Ziya2: Data-centric Learning is All LLMs Need [41.44909548662012]
基礎モデルとしてLLaMA2を採用した13億のパラメータを持つモデルであるZiya2を提案する。
実験の結果、Ziya2は他のモデルを特にオープンソースと比較して有望な結果で、複数のベンチマークで大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2023-11-06T17:49:34Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。
提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文 参考訳(メタデータ) (2023-10-10T15:13:30Z) - MiniSUPERB: Lightweight Benchmark for Self-supervised Speech Models [90.99663022952498]
SuperBは自己教師付き学習(SSL)音声モデルの様々なタスクにおける一般化性を評価するために提案された。
SuperBは大規模なデータセットと多様なタスクのために高い計算コストを発生させる。
我々は,SUPERBに匹敵する結果のSSL音声モデルを効率よく評価する軽量ベンチマークであるMiniSUPERBを紹介する。
論文 参考訳(メタデータ) (2023-05-30T13:07:33Z) - Distilling Step-by-Step! Outperforming Larger Language Models with Less
Training Data and Smaller Model Sizes [91.58845026796149]
大規模言語モデルを上回る小さなモデルを訓練する新しいメカニズムであるDistilling Step-by-stepを導入する。
4つのNLPベンチマークで3つの結果を得た。
論文 参考訳(メタデータ) (2023-05-03T17:50:56Z) - A Comparative Study between Full-Parameter and LoRA-based Fine-Tuning on
Chinese Instruction Data for Instruction Following Large Language Model [8.21938165599387]
基礎モデルの選択、トレーニングデータセットのスケール、学習可能なパラメータ量、モデルのトレーニングコストは、すべて重要な要素である。
論文の結果の再現を容易にするため、データセット、モデル、コードを公開します。
論文 参考訳(メタデータ) (2023-04-17T09:36:36Z) - CPM-2: Large-scale Cost-effective Pre-trained Language Models [71.59893315671997]
本稿では, PLM を用いた事前学習, 微調整, 推論の効率性問題に対処するための費用対効果技術について述べる。
我々は,既存のPLMをスクラッチからトレーニングする代わりに活用することで,事前学習プロセスの促進を目的とした知識継承を導入する。
計算資源が限られている大規模PLMに対して,新しい推論ツールキット,すなわちInfMoEを実装した。
論文 参考訳(メタデータ) (2021-06-20T15:43:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。