論文の概要: MobileLLM-Pro Technical Report
- arxiv url: http://arxiv.org/abs/2511.06719v1
- Date: Mon, 10 Nov 2025 05:28:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.088155
- Title: MobileLLM-Pro Technical Report
- Title(参考訳): MobileLLM-Pro技術報告
- Authors: Patrick Huber, Ernie Chang, Wei Wen, Igor Fedorov, Tarek Elgamal, Hanxian Huang, Naveen Suda, Chinnadhurai Sankar, Vish Vogeti, Yanghan Wang, Alex Gladkov, Kai Sheng Tai, Abdelrahman Elogeel, Tarek Hefny, Vikas Chandra, Ahmed Aly, Anuj Kumar, Raghuraman Krishnamoorthi, Adithya Sagar,
- Abstract要約: MobileLLM-Proは、デバイス上でのデプロイメントに最適化された1ビリオンパラメータ言語モデルである。
Gemma 3-1BとLlama 3.2-1Bを11の標準ベンチマークで大幅に上回っている。
最大128,000トークンのコンテキストウィンドウをサポートし、4ビット量子化時の小さなパフォーマンスレグレッションのみを表示する。
- 参考スコア(独自算出の注目度): 28.511762884727883
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficient on-device language models around 1 billion parameters are essential for powering low-latency AI applications on mobile and wearable devices. However, achieving strong performance in this model class, while supporting long context windows and practical deployment remains a significant challenge. We introduce MobileLLM-Pro, a 1-billion-parameter language model optimized for on-device deployment. MobileLLM-Pro achieves state-of-the-art results across 11 standard benchmarks, significantly outperforming both Gemma 3-1B and Llama 3.2-1B, while supporting context windows of up to 128,000 tokens and showing only minor performance regressions at 4-bit quantization. These improvements are enabled by four core innovations: (1) implicit positional distillation, a novel technique that effectively instills long-context capabilities through knowledge distillation; (2) a specialist model merging framework that fuses multiple domain experts into a compact model without parameter growth; (3) simulation-driven data mixing using utility estimation; and (4) 4-bit quantization-aware training with self-distillation. We release our model weights and code to support future research in efficient on-device language models.
- Abstract(参考訳): モバイルおよびウェアラブルデバイス上での低レイテンシAIアプリケーションを動かす上で、デバイス上での効率的な10億のパラメーターに関する言語モデルが不可欠である。
しかしながら、長いコンテキストウィンドウと実用的なデプロイをサポートする一方で、このモデルクラスで強力なパフォーマンスを達成することは、依然として大きな課題である。
デバイス上でのデプロイメントに最適化された1ビリオンパラメータ言語モデルであるMobileLLM-Proを紹介する。
MobileLLM-Proは11の標準ベンチマークで最先端の結果を達成し、Gemma 3-1BとLlama 3.2-1Bの両方を著しく上回っている。
これらの改善は,(1)暗黙的位置蒸留(暗黙的位置蒸留),(2)複数のドメインエキスパートをパラメータ成長のないコンパクトなモデルに融合する専門的モデル統合フレームワーク,(3)ユーティリティ推定を用いたシミュレーション駆動データ混合,(4)自己蒸留による4ビット量子化認識トレーニングの4つの革新によって実現された。
私たちは、デバイス上での効率的な言語モデルにおける将来の研究を支援するために、モデルウェイトとコードをリリースします。
関連論文リスト
- MiniCPM-V 4.5: Cooking Efficient MLLMs via Architecture, Data, and Training Recipe [68.04078852416248]
MiniCPM-V 4.5は8Bパラメータモデルであり、高効率で高性能に設計されている。
本稿では,モデルアーキテクチャ,データストラテジー,トレーニング手法の3つの改良点を紹介する。
MiniCPM-V 4.5は30B以下のモデル間で最先端の性能を達成する。
論文 参考訳(メタデータ) (2025-09-16T19:41:48Z) - TD-MPC-Opt: Distilling Model-Based Multi-Task Reinforcement Learning Agents [1.6574413179773757]
モデルに基づく強化学習における知識伝達に対する新しいアプローチを提案する。
提案手法は, 高容量マルチタスクエージェントをコンパクトなモデルに効率よく蒸留する。
われわれのアプローチは、実際の展開制限に対処し、大世界モデルにおける知識表現に関する洞察を提供する。
論文 参考訳(メタデータ) (2025-07-02T15:38:49Z) - dots.llm1 Technical Report [22.612448834536067]
dots.llm1は142Bパラメータのうち14Bパラメータを活性化する大規模なMoEモデルである。
トレーニングと推論のコストを削減しつつ、最先端のモデルと同等のパフォーマンスを提供する。
論文 参考訳(メタデータ) (2025-06-06T05:51:29Z) - EfficientLLM: Efficiency in Large Language Models [64.3537131208038]
大規模言語モデル(LLM)は大きな進歩を導いてきたが、その増加とコンテキストウィンドウは計算、エネルギー、金銭的コストを禁止している。
本稿では,新しいベンチマークであるEfficientLLMを紹介する。
論文 参考訳(メタデータ) (2025-05-20T02:27:08Z) - Pangu Ultra MoE: How to Train Your Big MoE on Ascend NPUs [111.69640966866059]
ミキチャー・オブ・エキスパート(MoE)と1兆近いパラメータを持つ疎大言語モデル(LLM)が、最も有能な言語モデルの領域を支配している。
本稿では,Ascend NPU上でそのようなスケールを利用するレシピを明らかにすることを目的としている。
主な目的は、動的スパースモデル構造下でのコンピューティングリソースのより良い使用と、実際のハードウェアで期待されるパフォーマンス向上の実現である。
論文 参考訳(メタデータ) (2025-05-07T15:46:36Z) - Empowering Smaller Models: Tuning LLaMA and Gemma with Chain-of-Thought for Ukrainian Exam Tasks [0.0]
小型またはコンパクトなモデルの方が効率的だが、表現不足の言語を十分にサポートしていないことが多い。
この研究は、推論集約的なタスクを扱うために、コンパクトなオープンウェイト言語モデルのパラメータ効率の良い微調整の可能性を探る。
統合タスクトピックとステップバイステップのソリューション生成によるチューニング手法は、マッチングタスクにおける標準チェーン・オブ・シンキングよりも優れる。
論文 参考訳(メタデータ) (2025-03-18T07:44:49Z) - Every FLOP Counts: Scaling a 300B Mixture-of-Experts LING LLM without Premium GPUs [96.68469559192846]
2つの異なる大きさのMoE大言語モデル(LLM)を提示する。
Ling-Liteは168億のパラメータと275億のアクティベートパラメータを持ち、Ling-Plusは2900億のパラメータと288億のアクティベートパラメータを持っている。
本稿では,(1)モデルアーキテクチャとトレーニングプロセスの最適化,(2)トレーニング異常処理の洗練,(3)モデル評価効率の向上のための革新的な手法を提案する。
論文 参考訳(メタデータ) (2025-03-07T04:43:39Z) - 1.5-Pints Technical Report: Pretraining in Days, Not Months -- Your Language Model Thrives on Quality Data [0.0]
本稿では,9日間で言語モデル"1.5-Pints"を事前学習するための計算効率のよい手法を提案する。
MT-Bench(人間の判断をエミュレートするベンチマーク)に基づいて、1.5-PintsはAppleのOpenELMとMicrosoftのPhiを上回っている。
これは、自動化された人間によるレビューと手動によるレビューを組み合わせて、57億トークンのトレーニング済みデータセットを慎重にキュレートすることで達成される。
論文 参考訳(メタデータ) (2024-08-07T02:14:52Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Scalable and Efficient MoE Training for Multitask Multilingual Models [55.987536562357086]
我々は,MoEモデルを数兆のパラメータに効率的にスケールできるシステムを開発した。
また,MoEサンプルの効率を向上させるための新たなトレーニング手法を提案し,時間効率を向上させるために専門家の刈り取り戦略を活用する。
50言語で100億のパラメータで訓練されたモデルは、機械翻訳(MT)および多言語自然言語生成タスクにおける最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2021-09-22T00:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。