論文の概要: True 4-Bit Quantized Convolutional Neural Network Training on CPU: Achieving Full-Precision Parity
- arxiv url: http://arxiv.org/abs/2603.13931v1
- Date: Sat, 14 Mar 2026 13:03:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.492855
- Title: True 4-Bit Quantized Convolutional Neural Network Training on CPU: Achieving Full-Precision Parity
- Title(参考訳): CPU上での真の4ビット量子畳み込みニューラルネットワークトレーニング:完全精度パリティの実現
- Authors: Shivnath Tathe,
- Abstract要約: 本稿では,コモディティCPU上での標準PyTorch演算を用いて,真の4ビット精度で畳み込みニューラルネットワークを訓練する方法を提案する。
本稿では, 対称量子化, 動的層間スケーリング, ストレートスルー推定器と組み合わせて, 安定収束と競争精度を実現する, タンフベースのソフトウェイトクリッピング手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Low-precision neural network training has emerged as a promising direction for reducing computational costs and democratizing access to deep learning research. However, existing 4-bit quantization methods either rely on expensive GPU infrastructure or suffer from significant accuracy degradation. In this work, we present a practical method for training convolutional neural networks at true 4-bit precision using standard PyTorch operations on commodity CPUs. We introduce a novel tanh-based soft weight clipping technique that, combined with symmetric quantization, dynamic per-layer scaling, and straight-through estimators, achieves stable convergence and competitive accuracy. Training a VGG-style architecture with 3.25 million parameters from scratch on CIFAR-10, our method achieves 92.34% test accuracy on Google Colab's free CPU tier -- matching full-precision baseline performance (92.5%) with only a 0.16% gap. We further validate on CIFAR-100, achieving 70.94% test accuracy across 100 classes with the same architecture and training procedure, demonstrating that 4-bit training from scratch generalizes to harder classification tasks. Both experiments achieve 8x memory compression over FP32 while maintaining exactly 15 unique weight values per layer throughout training. We additionally validate hardware independence by demonstrating rapid convergence on a consumer mobile device (OnePlus 9R), achieving 83.16% accuracy in only 6 epochs. To the best of our knowledge, no prior work has demonstrated 4-bit quantization-aware training achieving full-precision parity on standard CPU hardware without specialized kernels or post-training quantization.
- Abstract(参考訳): 低精度ニューラルネットワークトレーニングは、計算コストを削減し、ディープラーニング研究へのアクセスを民主化するための有望な方向として登場した。
しかし、既存の4ビット量子化手法は高価なGPUインフラに依存しているか、重大な精度の劣化に悩まされている。
本稿では,コモディティCPU上での標準PyTorch演算を用いて,真の4ビット精度で畳み込みニューラルネットワークを訓練する実践的手法を提案する。
本稿では, 対称量子化, 動的層間スケーリング, ストレートスルー推定器と組み合わせて, 安定収束と競争精度を実現する, タンフベースのソフトウェイトクリッピング手法を提案する。
CIFAR-10のスクラッチから325万のパラメータを持つVGGスタイルアーキテクチャをトレーニングし、Google Colabの無料CPU層で92.34%のテスト精度を実現した。
さらに,CIFAR-100の検証を行い,100クラス中70.94%のテスト精度を同一のアーキテクチャとトレーニング手順で達成し,スクラッチからの4ビットトレーニングがより難しい分類タスクに一般化されることを実証した。
両方の実験は、FP32上で8倍のメモリ圧縮を実現し、トレーニングを通して、各レイヤごとに正確に15の重み値を保持する。
さらに,コンシューマモバイルデバイス(OnePlus 9R)への迅速な収束を示すことで,ハードウェアの独立性を検証し,わずか6時間で83.16%の精度を実現した。
我々の知る限り、4ビットの量子化を意識したトレーニングを、特別なカーネルや後処理の量子化を使わずに、標準CPUハードウェアで完全精度のパリティを達成することを実証した以前の研究はない。
関連論文リスト
- Uncertainty Makes It Stable: Curiosity-Driven Quantized Mixture-of-Experts [6.221156050218661]
本稿では、資源制約のあるデバイス上でのディープニューラルネットワークのための好奇心駆動型量子化混合処理フレームワークを提案する。
われわれの4ビット量子化は、16ビットの精度(0.858対0.859 F1)の99.9%を維持し、4倍の圧縮と41%の省エネを実現している。
我々の情報理論的ルーティングは、適応量子化が精度(0.858 F1, 1.2M params)、エネルギー効率(3.87 F1/mJ)、予測可能なエッジモデルをもたらすことを示す。
論文 参考訳(メタデータ) (2025-11-13T15:32:41Z) - CAGE: Curvature-Aware Gradient Estimation For Accurate Quantization-Aware Training [73.46600457802693]
本稿では,量子化による損失に対応する新しい手法を提案する。
CAGEは、同様の計算コストで、精度の観点から最先端の手法を大幅に改善する。
LlamaモデルのQAT事前トレーニングでは、CAGEは4ビット(W4A4)で達成された精度と事前のベストメソッドとを一致させる。
論文 参考訳(メタデータ) (2025-10-21T16:33:57Z) - Efficient and Robust Quantization-aware Training via Adaptive Coreset Selection [38.23587031169402]
QAT(Quantization-Aware Training)は、重みとアクティベーションの冗長性を低減するための代表的なモデル圧縮手法である。
既存のQATメソッドの多くは、データセット全体のエンドツーエンドのトレーニングを必要とします。
トレーニング中の各試料の重要性を定量化するために, 量化重量の損失と勾配の分析に基づく2つの指標を提案する。
論文 参考訳(メタデータ) (2023-06-12T16:20:36Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z) - BMPQ: Bit-Gradient Sensitivity Driven Mixed-Precision Quantization of
DNNs from Scratch [11.32458063021286]
本稿では、ビット勾配を用いて層感度を分析し、混合精度の量子化モデルを生成する学習手法であるBMPQを提案する。
トレーニングを1回行う必要があるが、トレーニング済みのベースラインは必要ない。
ベースラインのFP-32モデルと比較して、BMPQは15.4倍少ないパラメータビットを持つモデルの精度は無視できる。
論文 参考訳(メタデータ) (2021-12-24T03:16:58Z) - LCS: Learning Compressible Subspaces for Adaptive Network Compression at
Inference Time [57.52251547365967]
本稿では,ニューラルネットワークの「圧縮可能な部分空間」を訓練する手法を提案する。
構造的・非構造的空間に対する推定時間における微粒な精度・効率のトレードオフを任意に達成するための結果を示す。
我々のアルゴリズムは、可変ビット幅での量子化にまで拡張し、個別に訓練されたネットワークと同等の精度を実現する。
論文 参考訳(メタデータ) (2021-10-08T17:03:34Z) - Activation Density based Mixed-Precision Quantization for Energy
Efficient Neural Networks [2.666640112616559]
ニューラルネットワークモデルのイントレーニング量子化手法を提案する。
本手法は,混合精度モデルの学習中に各層に対するビット幅を計算する。
VGG19/ResNet18アーキテクチャ上で、CIFAR-10、CIFAR-100、TinyImagenetなどのベンチマークデータセットの実験を行います。
論文 参考訳(メタデータ) (2021-01-12T09:01:44Z) - FracTrain: Fractionally Squeezing Bit Savings Both Temporally and Spatially for Efficient DNN Training [62.932299614630985]
本稿では, アクティベーション, ウェイト, 勾配の精度を徐々に向上させる, プログレッシブ分数量子化を統合したFracTrainを提案する。
FracTrainはDNNトレーニングの計算コストとハードウェア量子化エネルギー/レイテンシを削減し、同等以上の精度(-0.12%+1.87%)を達成する。
論文 参考訳(メタデータ) (2020-12-24T05:24:10Z) - APQ: Joint Search for Network Architecture, Pruning and Quantization
Policy [49.3037538647714]
本稿では,リソース制約のあるハードウェア上での効率的なディープラーニング推論のためのAPQを提案する。
ニューラルアーキテクチャ、プルーニングポリシー、量子化ポリシーを別々に検索する従来の方法とは異なり、我々はそれらを共同で最適化する。
同じ精度で、APQはMobileNetV2+HAQよりもレイテンシ/エネルギーを2倍/1.3倍削減する。
論文 参考訳(メタデータ) (2020-06-15T16:09:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。