論文の概要: Quant.npu: Enabling Efficient Mobile NPU Inference for on-device LLMs via Fully Static Quantization
- arxiv url: http://arxiv.org/abs/2605.20295v1
- Date: Tue, 19 May 2026 10:48:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.278635
- Title: Quant.npu: Enabling Efficient Mobile NPU Inference for on-device LLMs via Fully Static Quantization
- Title(参考訳): Quant.npu: フル静的量子化によるデバイス上でのLCMのための効率的なモバイルNPU推論
- Authors: Jinghe Zhang, Daliang Xu, Chenghua Wang, Weikai Xie, Tao Qi, Yun Ma, Mengwei Xu, Gang Huang,
- Abstract要約: Quant.npuはNPU制約推論のための整数のみの完全静的量子化フレームワークである。
学習可能な量子化パラメータと回転行列を組み込んでおり、実行時量子化パラメータを再計算することなく、低ビットのアクティベーション重量子化を可能にする。
Quant.npuは最先端の手法に匹敵する精度を実現し、推論遅延を最大15.1%削減する。
- 参考スコア(独自算出の注目度): 16.937297388706043
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly deployed on mobile devices, where Neural Processing Units (NPUs) necessitate fully static quantization for optimal inference efficiency. However, existing post-training quantization (PTQ) methods predominantly rely on dynamic activation quantization, rendering them incompatible with NPU hardware constraints. To bridge the gap between high-fidelity PTQ and NPU-constrained inference, we propose Quant.npu, a integer-only fully static quantization framework. It incorporates learnable quantization parameters and rotation matrices, enabling low-bit activation-weight quantization without runtime quantization parameters re-computation. Crucially, we identify that initialization and selective optimization of quantization parameters is pivotal for optimization stability, as improper initialization and naive joint optimization induce gradient instability that disrupts the optimization of rotation matrices. To address this, we propose a rotation-and-bit-width-aware initialization tailored to diverse activation profiles and a distribution-aware selective optimization (two-stage quantization pipeline) tailored to rotated and unrotated tensors. Furthermore, we introduce a sensitivity-guided adaptive mixed-precision scheme to balance accuracy with inference efficiency. Extensive experiments on real-world mobile NPUs demonstrate that Quant.npu achieves comparable accuracy to state-of-the-art methods, while reducing inference latency by up to 15.1%.
- Abstract(参考訳): 大規模言語モデル(LLM)はモバイルデバイスにますますデプロイされ、ニューラルネットワークユニット(NPU)は最適な推論効率のために完全に静的な量子化を必要とする。
しかし、既存のPTQ法は主に動的アクティベーション量子化に依存しており、NPUハードウェアの制約とは相容れない。
高忠実性PTQとNPU制約推論のギャップを埋めるため,整数のみの完全静的量子化フレームワークQuant.npuを提案する。
学習可能な量子化パラメータと回転行列を組み込んでおり、実行時量子化パラメータを再計算することなく、低ビットのアクティベーション重量子化を可能にする。
重要なことは、量子化パラメータの初期化と選択的最適化は、不適切な初期化と単純結合最適化が回転行列の最適化を妨害する勾配不安定を誘導するので、最適化の安定のために重要である。
そこで本研究では,多様なアクティベーションプロファイルに適した回転・ビット幅対応初期化と,回転・非回転テンソルに適した分布対応選択最適化(2段階量子化パイプライン)を提案する。
さらに、精度と推論効率のバランスをとるための感度誘導適応型混合精度スキームを導入する。
実世界のモバイルNPUの大規模な実験により、Quant.npuは最先端の手法と同等の精度を達成し、推論遅延を最大15.1%削減した。
関連論文リスト
- Quantum Approximate Optimization Algorithm with Fixed Number of Parameters [0.0]
我々は新しい量子最適化パラダイム、FPC-QAOA(Fixed-Count Approximate Quantum Optimization Algorithm)を導入する。
スケーラブルな変分フレームワークであり、量子ビットの数、ハミルトン複雑性、回路深さに関わらず、一定の数のトレーニング可能なパラメータを保持する。
我々は、ランダムなMaxCutインスタンスとTail Assignment ProblemのFPC-QAOAをベンチマークし、標準的なQAOAに匹敵する性能を達成する。
論文 参考訳(メタデータ) (2025-12-24T14:02:31Z) - TensorHyper-VQC: A Tensor-Train-Guided Hypernetwork for Robust and Scalable Variational Quantum Computing [50.95799256262098]
量子機械学習のための新しいテンソルトレイン(TT)誘導ハイパーネットワークフレームワークであるHyper-VQCを紹介する。
我々のフレームワークは、量子回路パラメータの生成を古典的なTTネットワークに委譲し、量子ハードウェアから最適化を効果的に分離する。
これらの結果から、Hyper-VQCは、短期デバイス上での実用的な量子機械学習を促進するためのスケーラブルで耐雑音性のあるフレームワークとして位置づけられる。
論文 参考訳(メタデータ) (2025-08-01T23:37:55Z) - i-QLS: Quantum-supported Algorithm for Least Squares Optimization in Non-Linear Regression [4.737806718785056]
繰り返し量子支援最小二乗(i-QLS)最適化法を提案する。
従来の量子最小二乗アプローチのスケーラビリティと精度の限界を克服する。
実験では、i-QLSにより、短期量子ハードウェアが精度とスケーラビリティを改善して回帰タスクを実行できることを確認した。
論文 参考訳(メタデータ) (2025-05-05T17:02:35Z) - BoA: Attention-aware Post-training Quantization without Backpropagation [11.096116957844014]
トレーニング後の量子化は、リソース制約のあるデバイスに大規模言語モデルをデプロイするための有望なソリューションである。
層間依存関係を考慮し、量子化重みを最適化する新しいバックプロパゲーションフリーPTQアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-19T11:53:21Z) - PikeLPN: Mitigating Overlooked Inefficiencies of Low-Precision Neural Networks [4.827161693957252]
非量子化要素演算は、低精度モデルの推論コストを支配している。
PikeLPNモデルは、要素演算と乗算累積演算の両方に量子化を適用することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2024-03-29T18:23:34Z) - Squat: Quant Small Language Models on the Edge [45.448118471829474]
数百万のパラメータを持つ高品質のSLM(Small Language Models)の設計において、増加傾向が生まれている。
モバイルデバイス上でのSLMでは,完全なパラメータトレーニングが実現可能であることを考えると,QAT(Quantization-Aware Training)が有効である。
本研究では,モバイルデバイス上でSLMをデプロイ可能な量子化を実現するためのQATフレームワークであるSquat法を提案する。
論文 参考訳(メタデータ) (2024-02-16T16:10:38Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models [57.27101446992148]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
近年のPTQ法はメモリフットプリントの削減とLLMの計算効率の向上に有効である。
多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文 参考訳(メタデータ) (2023-08-25T02:28:35Z) - Adaptive pruning-based optimization of parameterized quantum circuits [62.997667081978825]
Variisyハイブリッド量子古典アルゴリズムは、ノイズ中間量子デバイスの使用を最大化する強力なツールである。
我々は、変分量子アルゴリズムで使用されるそのようなアンサーゼを「効率的な回路訓練」(PECT)と呼ぶ戦略を提案する。
すべてのアンサッツパラメータを一度に最適化する代わりに、PECTは一連の変分アルゴリズムを起動する。
論文 参考訳(メタデータ) (2020-10-01T18:14:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。