論文の概要: MobileLLM-Flash: Latency-Guided On-Device LLM Design for Industry Scale
- arxiv url: http://arxiv.org/abs/2603.15954v1
- Date: Mon, 16 Mar 2026 22:10:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.012646
- Title: MobileLLM-Flash: Latency-Guided On-Device LLM Design for Industry Scale
- Title(参考訳): MobileLLM-Flash: 産業規模向け遅延ガイドオンデバイスLCM設計
- Authors: Hanxian Huang, Igor Fedorov, Andrey Gromov, Bernard Beckerman, Naveen Suda, David Eriksson, Maximilian Balandat, Rylan Conway, Patrick Huber, Chinnadhurai Sankar, Ayushi Dalmia, Zechun Liu, Lemeng Wu, Tarek Elgamal, Adithya Sagar, Vikas Chandra, Raghuraman Krishnamoorthi,
- Abstract要約: リアルタイムAIエクスペリエンスは、リソース制約のあるハードウェアへの効率的なデプロイのために最適化されたデバイス上の大規模言語モデル(OD-LLM)を要求する。
本稿では,モバイル遅延制約下でのハードウェア・イン・ザ・ループアーキテクチャ・サーチを用いたモデル設計手法を提案する。
- 参考スコア(独自算出の注目度): 36.89558970450915
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-time AI experiences call for on-device large language models (OD-LLMs) optimized for efficient deployment on resource-constrained hardware. The most useful OD-LLMs produce near-real-time responses and exhibit broad hardware compatibility, maximizing user reach. We present a methodology for designing such models using hardware-in-the-loop architecture search under mobile latency constraints. This system is amenable to industry-scale deployment: it generates models deployable without custom kernels and compatible with standard mobile runtimes like Executorch. Our methodology avoids specialized attention mechanisms and instead uses attention skipping for long-context acceleration. Our approach jointly optimizes model architecture (layers, dimensions) and attention pattern. To efficiently evaluate candidates, we treat each as a pruned version of a pretrained backbone with inherited weights, thereby achieving high accuracy with minimal continued pretraining. We leverage the low cost of latency evaluation in a staged process: learning an accurate latency model first, then searching for the Pareto-frontier across latency and quality. This yields MobileLLM-Flash, a family of foundation models (350M, 650M, 1.4B) for efficient on-device use with strong capabilities, supporting up to 8k context length. MobileLLM-Flash delivers up to 1.8x and 1.6x faster prefill and decode on mobile CPUs with comparable or superior quality. Our analysis of Pareto-frontier design choices offers actionable principles for OD-LLM design.
- Abstract(参考訳): リアルタイムAIエクスペリエンスは、リソース制約のあるハードウェアへの効率的なデプロイのために最適化されたデバイス上の大規模言語モデル(OD-LLM)を要求する。
最も有用なOD-LLMは、ほぼリアルタイムの応答を生成し、幅広いハードウェア互換性を示し、ユーザリーチを最大化する。
本稿では,モバイル遅延制約下でのハードウェア・イン・ザ・ループアーキテクチャ・サーチを用いたモデル設計手法を提案する。
カスタムカーネルなしでデプロイ可能なモデルを生成し、Executorchのような標準モバイルランタイムと互換性がある。
本手法は,特に注意機構を回避し,長文アクセラレーションに注意スキップを用いる。
我々のアプローチは、モデルアーキテクチャ(層、次元)とアテンションパターンを共同で最適化する。
候補を効率よく評価するために,プレトレーニングしたバックボーンの刈り取り版を継承重み付きで処理し,最小限の継続事前トレーニングで高い精度が得られるようにした。
まず正確なレイテンシモデルを学び、次にレイテンシと品質をまたいだPareto-frontierを探します。
これによりMobileLLM-Flashは、強力な機能を備えたデバイス上での効率的な使用が可能で、最大8kコンテキスト長をサポートする基盤モデル(350M、650M、1.4B)のファミリーである。
MobileLLM-Flashは最大1.8倍、1.6倍高速なプリフィルとデコードを提供する。
Pareto-frontier設計の選択に関する我々の分析は、OD-LLM設計の実用的な原則を提供する。
関連論文リスト
- Hardware Co-Design Scaling Laws via Roofline Modelling for On-Device LLMs [49.99513618431772]
本稿では,モデル精度と推論性能を捉えるハードウェア共同設計法を提案する。
我々はNVIDIA Jetson Orin上で1,942の候補アーキテクチャを実証的に評価した。
我々のアーキテクチャはWikiText-2で19.42%低いパープレキシティを実現している。
論文 参考訳(メタデータ) (2026-02-10T23:51:00Z) - Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models [97.55009021098554]
本研究の目的は、SLMのリアルタイムレイテンシの主要な決定要因を特定し、SLMの設計とトレーニングのための一般化可能な原則と方法論を提供することである。
我々はNemotron-Flashと呼ばれるハイブリッドSLMの新たなファミリーを導入し、最先端SLMの精度・効率のフロンティアを大幅に向上させる。
論文 参考訳(メタデータ) (2025-11-24T08:46:36Z) - MOBIUS: Big-to-Mobile Universal Instance Segmentation via Multi-modal Bottleneck Fusion and Calibrated Decoder Pruning [91.90342432541138]
モデルサイズとトレーニングデータのスケールアップには、インスタンスレベルの知覚のための高度な基盤モデルがある。
資源制約されたプラットフォームにおける高い計算コスト制限。
我々は,高性能コンピューティングプラットフォームとモバイルデバイスの両方において,効率的なセグメンテーションのための新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-10-16T18:00:00Z) - LongCat-Flash Technical Report [165.64670448930875]
LongCat-Flashは、560ビリオンパラメータのMixture-of-Experts (MoE)言語モデルである。
計算効率と高度なエージェント能力の両方のために設計されている。
30日以内に20兆トークン以上のモデルトレーニングを完了し、100トークン/秒 (TPS) 以上の推論を0.70パーセントのアウトプットトークンで達成しました。
論文 参考訳(メタデータ) (2025-09-01T10:05:45Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - MELTing point: Mobile Evaluation of Language Transformers [8.238355633015068]
大規模言語モデル(LLM)のモバイル実行の現状について検討する。
我々は,デバイス上でのLLMのヘッドレス実行とベンチマークをサポートする,独自の自動化インフラストラクチャMELTを開発した。
我々は、一般的な命令の微調整 LLM を評価し、それぞれのフレームワークを用いてエンドツーエンドおよび粒度の性能を計測する。
論文 参考訳(メタデータ) (2024-03-19T15:51:21Z) - Low-Precision Hardware Architectures Meet Recommendation Model Inference
at Scale [11.121380180647769]
本稿では,低精度ハードウェアに参照レコメンデーションモデルを適用するための検索戦略について紹介する。
また,ツールチェーンの設計と開発について論じ,モデルの精度を生涯にわたって維持する。
これらの教訓は,ハードウェアアーキテクチャとソフトウェアエンジニアリングの協調設計を促進するものだ,と私たちは信じています。
論文 参考訳(メタデータ) (2021-05-26T16:42:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。