Fugu-MT 論文翻訳(概要): PalQuant: Accelerating High-precision Networks on Low-precision Accelerators

論文の概要: PalQuant: Accelerating High-precision Networks on Low-precision Accelerators

arxiv url: http://arxiv.org/abs/2208.01944v1
Date: Wed, 3 Aug 2022 09:44:13 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-04 13:49:00.342191
Title: PalQuant: Accelerating High-precision Networks on Low-precision Accelerators
Title（参考訳）: PalQuant: 低精度加速器上での高精度ネットワークの高速化
Authors: Qinghao Hu, Gang Li, Qiman Wu, Jian Cheng
Abstract要約: 低精度深層学習アクセラレータ (DLAs) は, チップ面積とエネルギー消費の優位性から普及している。高精度かつ効率的な推論を実現する一つの方法は、高精度ニューラルネットワークを低精度DLAに展開することである。並列低精度表現をスクラッチから学習することで高精度計算を近似するParallel Low-precision Quantization (PalQuant)法を提案する。
参考スコア（独自算出の注目度）: 17.877271678887315
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently low-precision deep learning accelerators (DLAs) have become popular due to their advantages in chip area and energy consumption, yet the low-precision quantized models on these DLAs bring in severe accuracy degradation. One way to achieve both high accuracy and efficient inference is to deploy high-precision neural networks on low-precision DLAs, which is rarely studied. In this paper, we propose the PArallel Low-precision Quantization (PalQuant) method that approximates high-precision computations via learning parallel low-precision representations from scratch. In addition, we present a novel cyclic shuffle module to boost the cross-group information communication between parallel low-precision groups. Extensive experiments demonstrate that PalQuant has superior performance to state-of-the-art quantization methods in both accuracy and inference speed, e.g., for ResNet-18 network quantization, PalQuant can obtain 0.52\% higher accuracy and 1.78$\times$ speedup simultaneously over their 4-bit counter-part on a state-of-the-art 2-bit accelerator. Code is available at \url{https://github.com/huqinghao/PalQuant}.
Abstract（参考訳）: 近年,チップ面積とエネルギー消費の優位性から,低精度深層学習アクセラレータ (DLAs) が普及しているが,これらのDLAの低精度量子化モデルでは精度が著しく低下している。高精度かつ効率的な推論を実現する方法の1つは、高精度ニューラルネットワークを低精度のDLAに展開することである。本稿では,並列低精度表現をスクラッチから学習することで高精度計算を近似する並列低精度量子化(palquant)法を提案する。さらに,並列低精度群間のクロスグループ情報通信を促進するための新しい循環シャッフルモジュールを提案する。大規模な実験により、PalQuantは、ResNet-18ネットワーク量子化の精度と推論速度の両方において、最先端の量子化法よりも優れた性能を示しており、例えば、PalQuantは、最先端の2ビット加速器上の4ビットカウンター部分に対して0.52\%の精度と1.78$\times$のスピードアップを得ることができる。コードは \url{https://github.com/huqinghao/PalQuant} で入手できる。

関連論文リスト

MSQ: Memory-Efficient Bit Sparsification Quantization [11.510434574824213]
混合精度量子化は効率と精度のバランスが優れているため、広く好まれる。メモリ効率の良いビットスカラー化量子化(MSQ)を提案する。 MSQは、トレーニング可能なパラメータの最大8.00倍の削減、トレーニング時間の最大86%の削減を実現している。
論文参考訳（メタデータ） (2025-07-30T03:21:29Z)
MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文参考訳（メタデータ） (2025-07-06T08:16:50Z)
Dual Precision Quantization for Efficient and Accurate Deep Neural Networks Inference [3.7687375904925484]
本稿では,ハードウェアの利点を最小限の精度で生かした,ハードウェア効率の量子化と推論手法を提案する。本研究では,新たな推定オーバーヘッドを伴わずに,新たな量子化アルゴリズムであるDual Precision Quantization (DPQ) を開発した。
論文参考訳（メタデータ） (2025-05-20T17:26:12Z)
Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics [65.37942405146232]
超低精度量子化により達成された,超軽量な状態要素を持つ新しいタイプのオーバーロードを提案する。提案したSOLOは,精度の低下を最小限に抑え,メモリの大幅な節約(7Bモデルのトレーニング時に約45GB)を実現する。
論文参考訳（メタデータ） (2025-05-01T06:47:45Z)
Gradient-based Automatic Mixed Precision Quantization for Neural Networks On-Chip [0.9187138676564589]
本稿では,革新的な量子化学習手法である高粒度量子化(HGQ)を提案する。 HGQは、勾配降下によって最適化できるようにすることで、重量当たりおよび活動当たりの精度を微調整する。このアプローチは、演算演算が可能なハードウェア上で、超低レイテンシと低電力ニューラルネットワークを実現する。
論文参考訳（メタデータ） (2024-05-01T17:18:46Z)
PikeLPN: Mitigating Overlooked Inefficiencies of Low-Precision Neural Networks [4.827161693957252]
非量子化要素演算は、低精度モデルの推論コストを支配している。 PikeLPNモデルは、要素演算と乗算累積演算の両方に量子化を適用することで、これらの問題に対処する。
論文参考訳（メタデータ） (2024-03-29T18:23:34Z)
On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文参考訳（メタデータ） (2023-09-05T04:39:34Z)
DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文参考訳（メタデータ） (2023-04-18T15:13:10Z)
Automatic Network Adaptation for Ultra-Low Uniform-Precision Quantization [6.1664476076961146]
一様精度ニューラルネットワーク量子化は、高計算能力のために高密度に充填された演算ユニットを単純化したため、人気を集めている。層間の量子化誤差の影響に対して不均一な感度を無視し、結果として準最適推論をもたらす。本研究は,超低精度量子化による精度劣化を軽減するために,ニューラルネットワーク構造を調整するニューラルチャネル拡張と呼ばれる新しいニューラルアーキテクチャ探索を提案する。
論文参考訳（メタデータ） (2022-12-21T09:41:25Z)
Mixed Precision Low-bit Quantization of Neural Network Language Models for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文参考訳（メタデータ） (2021-11-29T12:24:02Z)
Mixed Precision of Quantization of Transformer Language Models for Speech Recognition [67.95996816744251]
トランスフォーマーが表現する最先端のニューラルネットワークモデルは、実用アプリケーションにとってますます複雑で高価なものになりつつある。現在の低ビット量子化法は、均一な精度に基づいており、量子化エラーに対するシステムの異なる部分での様々な性能感度を考慮できない。最適局所精度設定は2つの手法を用いて自動的に学習される。 Penn Treebank (PTB)とSwitchboard corpusによるLF-MMI TDNNシステムの試験を行った。
論文参考訳（メタデータ） (2021-11-29T09:57:00Z)
Learnable Companding Quantization for Accurate Low-bit Neural Networks [3.655021726150368]
ディープニューラルネットワークの量子化は、メモリ消費の削減と推論速度の向上に有効な方法である。非常に低ビットモデルがフル精度モデルに匹敵する精度を達成することは、まだ困難です。 2,3,4ビットモデルのための新しい非一様量子化手法として学習可能なコンパイル量子化(LCQ)を提案する。
論文参考訳（メタデータ） (2021-03-12T09:06:52Z)
DAQ: Distribution-Aware Quantization for Deep Image Super-Resolution Networks [49.191062785007006]
画像超解像のための深い畳み込みニューラルネットワークの定量化は、計算コストを大幅に削減する。既存の作業は、4ビット以下の超低精度の厳しい性能低下に苦しむか、または性能を回復するために重い微調整プロセスを必要とします。高精度なトレーニングフリー量子化を実現する新しい分散認識量子化方式(DAQ)を提案する。
論文参考訳（メタデータ） (2020-12-21T10:19:42Z)
AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文参考訳（メタデータ） (2020-07-14T09:07:29Z)
Automatic heterogeneous quantization of deep neural networks for low-latency inference on the edge for particle detectors [5.609098985493794]
我々は,チップ上での最小エネルギー,高精度,ナノ秒の推論,完全自動展開のための,深層ニューラルネットワークモデルの最適ヘテロジニゼーションバージョンを設計する手法を提案する。これはCERN大型ハドロン衝突型加速器における陽子-陽子衝突におけるイベント選択の手順に不可欠であり、リソースは厳密に制限され、$mathcal O(1)mu$sのレイテンシが要求される。
論文参考訳（メタデータ） (2020-06-15T15:07:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。