論文の概要: Scaling LLM Test-Time Compute with Mobile NPU on Smartphones
- arxiv url: http://arxiv.org/abs/2509.23324v1
- Date: Sat, 27 Sep 2025 14:17:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.162309
- Title: Scaling LLM Test-Time Compute with Mobile NPU on Smartphones
- Title(参考訳): 携帯電話におけるモバイルNPUを用いたLCMテスト時間計算のスケーリング
- Authors: Zixu Hao, Jianyu Wei, Tuowei Wang, Minxing Huang, Huiqiang Jiang, Shiqi Jiang, Ting Cao, Ju Ren,
- Abstract要約: 本稿では,移動型ニューラルプロセッシングユニット (NPU) が計算資源を過小評価していることを示す。
そこで本研究では,モバイルNPUに並列テスト時間スケーリング手法を適用し,小型LLMの性能を向上させることを提案する。
混合精度GEMMは19.0、ソフトマックスは2.2である。
- 参考スコア(独自算出の注目度): 18.50846535848905
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deploying Large Language Models (LLMs) on mobile devices faces the challenge of insufficient performance in smaller models and excessive resource consumption in larger ones. This paper highlights that mobile Neural Processing Units (NPUs) have underutilized computational resources, particularly their matrix multiplication units, during typical LLM inference. To leverage this wasted compute capacity, we propose applying parallel test-time scaling techniques on mobile NPUs to enhance the performance of smaller LLMs. However, this approach confronts inherent NPU challenges, including inadequate hardware support for fine-grained quantization and low efficiency in general-purpose computations. To overcome these, we introduce two key techniques: a hardware-aware tile quantization scheme that aligns group quantization with NPU memory access patterns, and efficient LUT-based replacements for complex operations such as Softmax and dequantization. We design and implement an end-to-end inference system that leverages the NPU's compute capability to support test-time scaling on Qualcomm Snapdragon platforms. Experiments show our approach brings significant speedups: up to 19.0 for mixed-precision GEMM and 2.2 for Softmax. More importantly, we demonstrate that smaller models using test-time scaling can match or exceed the accuracy of larger models, achieving a new performance-cost Pareto frontier.
- Abstract(参考訳): モバイルデバイスにLLM(Large Language Models)をデプロイすることは、小さなモデルではパフォーマンスが不十分であり、大きなモデルではリソース消費が過剰であるという課題に直面している。
本稿では,移動型ニューラルプロセッシングユニット(NPU)が,典型的なLLM推論において,計算資源,特に行列乗算ユニットを過小評価していることを示す。
この無駄な計算能力を活用するために,モバイルNPUに並列テスト時間スケーリング手法を適用し,より小さなLLMの性能を向上させることを提案する。
しかし、このアプローチは、汎用計算において、きめ細かい量子化と低効率のハードウェアサポートが不十分であるなど、固有のNPU課題に直面している。
そこで本研究では,グループ量子化をNPUメモリアクセスパターンに整合させるハードウェア対応タイル量子化方式と,Softmaxやdequantizationなどの複雑な操作に対する効率的なLUTベースの置換方式を提案する。
Qualcomm Snapdragonプラットフォーム上でのテスト時間スケーリングをサポートするために,NPUの計算能力を活用したエンドツーエンド推論システムの設計と実装を行う。
実験の結果, 混合精度GEMMは19.0, ソフトマックスは2.2である。
さらに重要なことは、テストタイムスケーリングを使用する小さなモデルがより大きなモデルの精度にマッチまたは超え、新しいパフォーマンスコストのParetoフロンティアを実現することを示しています。
関連論文リスト
- Pushing the Envelope of LLM Inference on AI-PC [45.081663877447816]
ウルトラロービットモデル(1/1.58/2-bit)は、同じモデルサイズを用いて、その完全精度のモデルのパープレキシティとエンドタスクのパフォーマンスとを一致させる。
最先端の推論ランタイム(例えばbitnet)の計算効率は未調査のままである。
まず1ビットと2ビットのマイクロカーネルを設計・実装し,計算効率の最大化を実現した。
我々は、現在のSOTAランタイムビットネットよりも優れた2ビットモデルを用いて、エンドツーエンドの推論結果を示す。
論文 参考訳(メタデータ) (2025-08-08T23:33:38Z) - NeUQI: Near-Optimal Uniform Quantization Parameter Initialization [41.08779476737888]
大規模言語モデル(LLM)のトレーニング後の量子化は、メモリフットプリントを削減し、遅延をデコードする有望なソリューションを提供する。
最近の$geq 2$-bit均一量子化の研究は、ポスト量子化モデルの性能に顕著な改善をもたらした。
均一量子化のための近似初期パラメータを効率的に決定する手法NeUQIを提案する。
論文 参考訳(メタデータ) (2025-05-23T07:59:46Z) - QuartDepth: Post-Training Quantization for Real-Time Depth Estimation on the Edge [55.75103034526652]
ASIC のハードウェアアクセラレーションによる MDE モデルの定量化を後学習量子化に応用した QuartDepth を提案する。
提案手法では,重みとアクティベーションの両方を4ビット精度で定量化し,モデルサイズと計算コストを削減する。
我々は、カーネル融合とカスタマイズされた命令プログラム性をサポートすることにより、フレキシブルでプログラム可能なハードウェアアクセラレータを設計する。
論文 参考訳(メタデータ) (2025-03-20T21:03:10Z) - Tender: Accelerating Large Language Models via Tensor Decomposition and Runtime Requantization [0.6445087473595953]
大規模言語モデル(LLM)は、機械学習における様々なタスクにおいて優れたパフォーマンスを示す。
LLM推論のデプロイは、高い計算とメモリ要求のために問題となる。
我々は,低精度でLLM推論を効率的に展開できるアルゴリズム-ハードウェア共設計ソリューションであるテンダーを提案する。
論文 参考訳(メタデータ) (2024-06-16T09:51:55Z) - MobileAIBench: Benchmarking LLMs and LMMs for On-Device Use Cases [81.70591346986582]
モバイル端末上でのLarge Language Models(LLM)とLarge Multimodal Models(LMM)を評価するためのベンチマークフレームワークであるMobileAIBenchを紹介する。
MobileAIBenchは、さまざまなサイズ、量子化レベル、タスクにわたるモデルを評価し、実際のデバイス上でのレイテンシとリソース消費を測定する。
論文 参考訳(メタデータ) (2024-06-12T22:58:12Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - FineQuant: Unlocking Efficiency with Fine-Grained Weight-Only
Quantization for LLMs [9.072821427818557]
大規模言語モデル(LLM)は、様々な言語タスクで最先端のパフォーマンスを達成しているが、実用的なデプロイメントには課題がある。
メモリ消費を削減し,LLMの推論を高速化する,効率的な重みのみの量子化法を提案する。
我々は,OPT-175Bや内部MoEモデルのような大規模オープンソースモデルに対するアプローチを評価し,スループットを最大3.65倍に向上しながら,最小限の精度の損失を示す。
論文 参考訳(メタデータ) (2023-08-16T23:57:41Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - LUT-GEMM: Quantized Matrix Multiplication based on LUTs for Efficient Inference in Large-Scale Generative Language Models [9.727062803700264]
量子化行列乗算のための効率的なカーネルであるLUT-GEMMを紹介する。
LUT-GEMMは資源集約化プロセスを取り除き、計算コストを削減する。
我々は,3ビット量子化を用いたOPT-175Bモデルに適用した場合,LUT-GEMMはトークン生成遅延を大幅に高速化することを示した。
論文 参考訳(メタデータ) (2022-06-20T03:48:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。