論文の概要: Adaptive Distribution-aware Quantization for Mixed-Precision Neural Networks
- arxiv url: http://arxiv.org/abs/2510.19760v1
- Date: Wed, 22 Oct 2025 16:48:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:16.152413
- Title: Adaptive Distribution-aware Quantization for Mixed-Precision Neural Networks
- Title(参考訳): 混合精度ニューラルネットワークの適応分布認識量子化
- Authors: Shaohang Jia, Zhiyong Huang, Zhi Yu, Mingyang Hou, Shuai Miao, Han Yang,
- Abstract要約: QAT(Quantization-Aware Training)は、リソース制約のあるデバイスにディープニューラルネットワークをデプロイするための重要なテクニックである。
本稿では,適応分布対応量子化(adaptive Distribution-aware Quantization,ADQ)を提案する。
- 参考スコア(独自算出の注目度): 12.36496914117844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantization-Aware Training (QAT) is a critical technique for deploying deep neural networks on resource-constrained devices. However, existing methods often face two major challenges: the highly non-uniform distribution of activations and the static, mismatched codebooks used in weight quantization. To address these challenges, we propose Adaptive Distribution-aware Quantization (ADQ), a mixed-precision quantization framework that employs a differentiated strategy. The core of ADQ is a novel adaptive weight quantization scheme comprising three key innovations: (1) a quantile-based initialization method that constructs a codebook closely aligned with the initial weight distribution; (2) an online codebook adaptation mechanism based on Exponential Moving Average (EMA) to dynamically track distributional shifts; and (3) a sensitivity-informed strategy for mixed-precision allocation. For activations, we integrate a hardware-friendly non-uniform-to-uniform mapping scheme. Comprehensive experiments validate the effectiveness of our method. On ImageNet, ADQ enables a ResNet-18 to achieve 71.512% Top-1 accuracy with an average bit-width of only 2.81 bits, outperforming state-of-the-art methods under comparable conditions. Furthermore, detailed ablation studies on CIFAR-10 systematically demonstrate the individual contributions of each innovative component, validating the rationale and effectiveness of our design.
- Abstract(参考訳): QAT(Quantization-Aware Training)は、リソース制約のあるデバイスにディープニューラルネットワークをデプロイするための重要なテクニックである。
しかし、既存の方法は、アクティベーションの高度に一様でない分布と、重み量子化に使用される静的で不一致なコードブックの2つの大きな課題に直面している。
これらの課題に対処するため、我々は、異なる戦略を用いた混合精度量子化フレームワークであるAdaptive Distribution-Aware Quantization (ADQ)を提案する。
ADQの中核は,(1)初期重み分布に忠実に整合したコードブックを構築する量子型初期化法,(2)指数移動平均(EMA)に基づくオンラインコードブック適応機構,(3)混合精度割当のための感度インフォームド戦略の3つの重要な革新を含む,新しい適応型重み量子化方式である。
アクティベーションのために、ハードウェアフレンドリーで一様でない一様マッピング方式を統合する。
総合的な実験により,本手法の有効性が検証された。
ImageNetでは、ADQはResNet-18を71.512%のTop-1精度で実現し、平均ビット幅はわずか2.81ビットであり、同等条件下では最先端の手法よりも優れている。
さらに、CIFAR-10の詳細なアブレーション研究は、各革新的コンポーネントの個々の貢献を体系的に実証し、設計の合理性と有効性を検証する。
関連論文リスト
- Reinforcement Learning for Quantum Network Control with Application-Driven Objectives [53.03367590211247]
動的プログラミングと強化学習は、制御戦略を最適化するための有望なツールを提供する。
非線形で微分可能な目的関数を直接最適化する新しいRLフレームワークを提案する。
我々の研究は、RLを持つ量子ネットワークにおける非線形目的関数最適化への第一歩であり、より高度なユースケースへの道を開く。
論文 参考訳(メタデータ) (2025-09-12T18:41:10Z) - Progressive Element-wise Gradient Estimation for Neural Network Quantization [2.1413624861650358]
量子化アウェアトレーニング(QAT)法は、離散化関数の非微分可能性に対処するためにSTE(Straight-Through Estimator)に依存する。
本稿では,連続値と量子化値の離散化誤差に対処するため,PEGE(Progressive Element-wise Gradient Estimation)を提案する。
PEGEは、既存のバックプロパゲーション手法を一貫して上回り、低精度のモデルが彼らの完全精度の精度にマッチしたり、さらに上回ったりすることを可能にしている。
論文 参考訳(メタデータ) (2025-08-27T15:59:36Z) - Deep Unfolding with Kernel-based Quantization in MIMO Detection [26.033613526407226]
本稿では,深層展開ネットワークのためのカーネルベースの適応量子化(KAQ)フレームワークを提案する。
提案するKAQフレームワークの精度は従来の手法よりも優れており、モデルによる推論遅延の低減に成功している。
論文 参考訳(メタデータ) (2025-05-19T05:50:24Z) - Precision Neural Network Quantization via Learnable Adaptive Modules [27.323901068182234]
量子化アウェアトレーニング(QAT)は、モデルサイズを圧縮し、運用効率を向上させるニューラルネットワーク量子化技術である。
本稿では、適応ステップサイズ量子化(ASQ)と呼ばれる、効果的な学習可能な適応型ニューラルネットワーク量子化法を提案する。
論文 参考訳(メタデータ) (2025-04-24T05:46:25Z) - LoRA-Ensemble: Efficient Uncertainty Modelling for Self-Attention Networks [52.46420522934253]
本稿では,自己注意ネットワークのためのパラメータ効率のよいアンサンブル手法であるLoRA-Ensembleを紹介する。
この方法は、BatchEnsembleのような最先端の暗黙のテクニックを上回るだけでなく、Explicit Ensembleの正確さにマッチするか超える。
論文 参考訳(メタデータ) (2024-05-23T11:10:32Z) - QuantEase: Optimization-based Quantization for Language Models [17.333778751252392]
本研究は,近年のLarge Language Models (LLMs) の進歩から,様々な量子化層の量子化(PTQ)を導入する。
当社のCDベースのアプローチは、ベクター操作にのみ依存して、簡単にアップデートできる。
我々はまた、完全な精度で重要な重量(外積)を維持することができるような、外れ値のアプローチも検討している。
論文 参考訳(メタデータ) (2023-09-05T01:39:09Z) - Task-Oriented Sensing, Computation, and Communication Integration for
Multi-Device Edge AI [108.08079323459822]
本稿では,AIモデルの分割推論と統合センシング通信(ISAC)を併用した,新しいマルチインテリジェントエッジ人工レイテンシ(AI)システムについて検討する。
推定精度は近似的だが抽出可能な計量、すなわち判別利得を用いて測定する。
論文 参考訳(メタデータ) (2022-07-03T06:57:07Z) - Standard Deviation-Based Quantization for Deep Neural Networks [17.495852096822894]
深層ニューラルネットワークの量子化は、推論コストを低減するための有望なアプローチである。
ネットワークの重みと活性化分布の知識を用いて量子化間隔(離散値)を学習する新しいフレームワークを提案する。
提案手法は,ネットワークのパラメータを同時に推定し,量子化過程におけるプルーニング比を柔軟に調整する。
論文 参考訳(メタデータ) (2022-02-24T23:33:47Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。