論文の概要: MiniCPM4: Ultra-Efficient LLMs on End Devices
- arxiv url: http://arxiv.org/abs/2506.07900v1
- Date: Mon, 09 Jun 2025 16:16:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:11.042553
- Title: MiniCPM4: Ultra-Efficient LLMs on End Devices
- Title(参考訳): MiniCPM4: エンドデバイス上での超効率的なLDM
- Authors: MiniCPM Team, Chaojun Xiao, Yuxuan Li, Xu Han, Yuzhuo Bai, Jie Cai, Haotian Chen, Wentong Chen, Xin Cong, Ganqu Cui, Ning Ding, Shengdan Fan, Yewei Fang, Zixuan Fu, Wenyu Guan, Yitong Guan, Junshao Guo, Yufeng Han, Bingxiang He, Yuxiang Huang, Cunliang Kong, Qiuzuo Li, Siyuan Li, Wenhao Li, Yanghao Li, Yishan Li, Zhen Li, Dan Liu, Biyuan Lin, Yankai Lin, Xiang Long, Quanyu Lu, Yaxi Lu, Peiyan Luo, Hongya Lyu, Litu Ou, Yinxu Pan, Zekai Qu, Qundong Shi, Zijun Song, Jiayuan Su, Zhou Su, Ao Sun, Xianghui Sun, Peijun Tang, Fangzheng Wang, Feng Wang, Shuo Wang, Yudong Wang, Yesai Wu, Zhenyu Xiao, Jie Xie, Zihao Xie, Yukun Yan, Jiarui Yuan, Kaihuo Zhang, Lei Zhang, Linyue Zhang, Xueren Zhang, Yudi Zhang, Hengyu Zhao, Weilin Zhao, Weilun Zhao, Yuanqian Zhao, Zhi Zheng, Ge Zhou, Jie Zhou, Wei Zhou, Zihan Zhou, Zixuan Zhou, Zhiyuan Liu, Guoyang Zeng, Chao Jia, Dahai Li, Maosong Sun,
- Abstract要約: MiniCPM4は、エンドサイドデバイス向けに明示的に設計された高効率な大規模言語モデル(LLM)である。
この効率性は、モデルアーキテクチャ、トレーニングデータ、トレーニングアルゴリズム、推論システムという4つの重要な側面において、体系的な革新を通じて達成します。
MiniCPM4は、それぞれ0.5Bと8Bのパラメータを持つ2つのバージョンで利用可能である。
- 参考スコア(独自算出の注目度): 124.73631357883228
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces MiniCPM4, a highly efficient large language model (LLM) designed explicitly for end-side devices. We achieve this efficiency through systematic innovation in four key dimensions: model architecture, training data, training algorithms, and inference systems. Specifically, in terms of model architecture, we propose InfLLM v2, a trainable sparse attention mechanism that accelerates both prefilling and decoding phases for long-context processing. Regarding training data, we propose UltraClean, an efficient and accurate pre-training data filtering and generation strategy, and UltraChat v2, a comprehensive supervised fine-tuning dataset. These datasets enable satisfactory model performance to be achieved using just 8 trillion training tokens. Regarding training algorithms, we propose ModelTunnel v2 for efficient pre-training strategy search, and improve existing post-training methods by introducing chunk-wise rollout for load-balanced reinforcement learning and data-efficient tenary LLM, BitCPM. Regarding inference systems, we propose CPM.cu that integrates sparse attention, model quantization, and speculative sampling to achieve efficient prefilling and decoding. To meet diverse on-device requirements, MiniCPM4 is available in two versions, with 0.5B and 8B parameters, respectively. Sufficient evaluation results show that MiniCPM4 outperforms open-source models of similar size across multiple benchmarks, highlighting both its efficiency and effectiveness. Notably, MiniCPM4-8B demonstrates significant speed improvements over Qwen3-8B when processing long sequences. Through further adaptation, MiniCPM4 successfully powers diverse applications, including trustworthy survey generation and tool use with model context protocol, clearly showcasing its broad usability.
- Abstract(参考訳): 本稿では,エンドサイドデバイス向けに設計された高効率な大規模言語モデル(LLM)であるMiniCPM4を紹介する。
この効率性は、モデルアーキテクチャ、トレーニングデータ、トレーニングアルゴリズム、推論システムという4つの重要な側面において、体系的な革新を通じて達成します。
具体的には、モデルアーキテクチャの観点から、長文処理のためのプリフィルとデコードの両方を高速化する訓練可能なスパースアテンション機構であるInfLLM v2を提案する。
トレーニングデータに関しては,トレーニング前データフィルタリングと生成戦略の効率的かつ正確なUltraCleanと,包括的教師付き微調整データセットであるUltraChat v2を提案する。
これらのデータセットは、たった8兆のトレーニングトークンを使用して、十分なモデルパフォーマンスを達成することができる。
トレーニングアルゴリズムについて,負荷バランス強化学習のためのチャンクワイズロールアウトとデータ効率の高いテナリーLLM,BitCPMを導入することで,事前学習を効率的に行うためのModelTunnel v2を提案する。
推論システムに関して, スパースアテンション, モデル量子化, 投機的サンプリングを統合し, 効率的なプリフィルとデコードを実現するCPM.cuを提案する。
デバイス上のさまざまな要件を満たすため、MiniCPM4はそれぞれ0.5Bと8Bのパラメータを持つ2つのバージョンが提供されている。
十分な評価結果から、MiniCPM4は複数のベンチマークで同じサイズのオープンソースモデルよりも優れており、その効率性と有効性の両方を強調している。
特に、MiniCPM4-8Bは長いシーケンスを処理する際にQwen3-8Bよりも大幅に速度が向上している。
さらなる適応を通じて、MiniCPM4は信頼性の高いサーベイ生成や、モデルコンテキストプロトコルを使ったツール使用など、多様なアプリケーションに成功し、その幅広いユーザビリティを明らかに示している。
関連論文リスト
- EfficientLLM: Efficiency in Large Language Models [64.3537131208038]
大規模言語モデル(LLM)は大きな進歩を導いてきたが、その増加とコンテキストウィンドウは計算、エネルギー、金銭的コストを禁止している。
本稿では,新しいベンチマークであるEfficientLLMを紹介する。
論文 参考訳(メタデータ) (2025-05-20T02:27:08Z) - PLM: Efficient Peripheral Language Models Hardware-Co-Designed for Ubiquitous Computing [48.30406812516552]
我々は、モデルアーキテクチャとエッジシステムの制約を協調的に最適化する共同設計プロセスを通じて開発された、周辺言語モデルであるPLMを紹介する。
PLMはMulti-head Latent Attentionメカニズムを採用し、正方形ReLUアクティベーション機能を採用してスパーシティを促進し、ピークメモリフットプリントを減少させる。
評価の結果, PLMは, 公開されているデータに基づいて訓練された既存の小言語モデルよりも優れていた。
論文 参考訳(メタデータ) (2025-03-15T15:11:17Z) - MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies [85.57899012821211]
SLM(Small Language Models)は、LLM(Large Language Models)に代わるリソース効率の高いモデルである。
我々はMiniCPM、特に1.2Bと2.4Bの非埋め込みパラメータの変種を紹介する。
また、MiniCPM-DPO、MiniCPM-MoE、MiniCPM-128Kを含むMiniCPMファミリーについても紹介する。
論文 参考訳(メタデータ) (2024-04-09T15:36:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。