Fugu-MT 論文翻訳(概要): Logarithmic Unbiased Quantization: Practical 4-bit Training in Deep Learning

論文の概要: Logarithmic Unbiased Quantization: Practical 4-bit Training in Deep Learning

arxiv url: http://arxiv.org/abs/2112.10769v1
Date: Sun, 19 Dec 2021 14:16:55 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-23 02:36:22.713390
Title: Logarithmic Unbiased Quantization: Practical 4-bit Training in Deep Learning
Title（参考訳）: logarithmic unbiased quantization: ディープラーニングにおける実践的4ビットトレーニング
Authors: Brian Chmiel, Ron Banner, Elad Hoffer, Hilla Ben Yaacov, Daniel Soudry
Abstract要約: 重みとアクティベーションの量子化は、ディープニューラルネットワーク(DNN)トレーニングの計算フットプリントを削減する主要な方法の1つである。前方と後方の両方の位相を4ビットに定量化するために、$textitlogarithmic unbiased Quantization$ (LUQ)法を提案する。
参考スコア（独自算出の注目度）: 36.891508840429516
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Quantization of the weights and activations is one of the main methods to reduce the computational footprint of Deep Neural Networks (DNNs) training. Current methods enable 4-bit quantization of the forward phase. However, this constitutes only a third of the training process. Reducing the computational footprint of the entire training process requires the quantization of the neural gradients, i.e., the loss gradients with respect to the outputs of intermediate neural layers. In this work, we examine the importance of having unbiased quantization in quantized neural network training, where to maintain it, and how. Based on this, we suggest a $\textit{logarithmic unbiased quantization}$ (LUQ) method to quantize both the forward and backward phase to 4-bit, achieving state-of-the-art results in 4-bit training without overhead. For example, in ResNet50 on ImageNet, we achieved a degradation of 1.18%. We further improve this to degradation of only 0.64% after a single epoch of high precision fine-tuning combined with a variance reduction method -- both add overhead comparable to previously suggested methods. Finally, we suggest a method that uses the low precision format to avoid multiplications during two-thirds of the training process, thus reducing by 5x the area used by the multiplier.
Abstract（参考訳）: 重みとアクティベーションの量子化は、ディープニューラルネットワーク(DNN)トレーニングの計算フットプリントを削減する主要な方法の1つである。現在の方法は前フェーズの4ビット量子化を可能にする。しかし、これはトレーニングプロセスの3分の1に過ぎない。トレーニングプロセス全体の計算フットプリントを削減するには、中間的な神経層の出力に対する損失勾配というニューラルネットワーク勾配の量子化が必要である。本研究では,量子化ニューラルネットワークトレーニングにおける非バイアス量子化の重要性,その維持方法,その方法について検討する。これに基づいて、前と後の両方の位相を4ビットに定量化するための$\textit{logarithmic unbiased Quantization}$ (LUQ)法を提案する。例えば、ImageNetのResNet50では、1.18%の劣化を達成した。さらに, 高精度微調整と分散低減法を併用した単一エポック後の0.64%の劣化に改善し, いずれも従来提案した手法に匹敵するオーバヘッドを付加する。最後に,学習過程の3分の2における乗算を避けるために,低精度の形式を用いる手法を提案し,乗算器が使用する面積を5倍削減する。

関連論文リスト

Efficient measurement of neutral-atom qubits with matched filters [0.25128687379089687]
量子コンピュータは量子優位性を達成するために多くの量子ビットの高忠実度測定を必要とする。従来のアプローチでは、狭い間隔の配列を持つ中性原子量子プロセッサの読み出しクロストークに悩まされていた。読み出し問題に対するマッチングフィルタを実現するため,よりシンプルでスケーラブルな機械学習アルゴリズムを2つ提案する。
論文参考訳（メタデータ） (2025-04-10T23:44:46Z)
ParetoQ: Scaling Laws in Extremely Low-bit LLM Quantization [58.84018707089315]
本稿では,1ビット,1.58ビット,2ビット,3ビット,4ビットの量子化設定に対して厳密な比較を行う統一フレームワークを提案する。 3次、2ビット、3ビット量子化は、サイズと精度のトレードオフにおいて同等のパフォーマンスを維持していることを示す。ハードウェアの制約を考慮すると、2ビット量子化はメモリの削減とスピードアップに有望な可能性を秘めている。
論文参考訳（メタデータ） (2025-02-04T18:59:26Z)
SVDQuant: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models [58.5019443418822]
拡散モデルは高品質なイメージを生成することができるが、スケールするにつれて、メモリ要求が増加し、より高いレイテンシがデプロイメント上の課題を引き起こす。この制限を克服する新しい4ビット量子化パラダイムであるSVDQuantを提案する。 We reduce the memory usage for the 12B FLUX.1 models by 3.5$times$, achieved 3.0$times$ speedup over the 4-bit weight-only Quantization (W4A16) baseline。
論文参考訳（メタデータ） (2024-11-07T18:59:58Z)
S-STE: Continuous Pruning Function for Efficient 2:4 Sparse Pre-training [20.113352600259226]
S-STEは,2:4スパースに連続的に重みを投影し,テンソルごとの固定スケーリング係数でスパース重みを再スケールする,シンプルな2:4トレーニング手法である。その結果,提案手法は以前の2:4の事前学習レシピよりも優れており,完全なパラメータモデルでも同等であることがわかった。
論文参考訳（メタデータ） (2024-09-13T08:29:36Z)
Globally Optimal Training of Neural Networks with Threshold Activation Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文参考訳（メタデータ） (2023-03-06T18:59:13Z)
LG-LSQ: Learned Gradient Linear Symmetric Quantization [3.6816597150770387]
精度の低いディープニューラルネットワークは、メモリスペースとアクセルパワーのコストの観点から利点がある。量子化アルゴリズムに関連する主な課題は、低ビット幅での精度を維持することである。低ビット幅での重みと活性化関数の定量化手法として、学習された勾配線形量子化(LG-LSQ)を提案する。
論文参考訳（メタデータ） (2022-02-18T03:38:12Z)
Mixed Precision Low-bit Quantization of Neural Network Language Models for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文参考訳（メタデータ） (2021-11-29T12:24:02Z)
n-hot: Efficient bit-level sparsity for powers-of-two neural network quantization [0.0]
パワーオブツー(PoT)量子化は、リソース制約ハードウェア上でのディープニューラルネットワークのビット演算数を減少させる。 PoT量子化は、表現能力が限られているため、深刻な精度低下を引き起こす。メモリ効率の高い方法で精度とコストを両立した効率的なPoT量子化方式を提案する。
論文参考訳（メタデータ） (2021-03-22T10:13:12Z)
Learning Neural Network Subspaces [74.44457651546728]
近年の観測は,ニューラルネットワーク最適化の展望の理解を深めている。 1つのモデルのトレーニングと同じ計算コストで、高精度ニューラルネットワークの線、曲線、単純軸を学習します。 1つのモデルのトレーニングと同じ計算コストで、高精度ニューラルネットワークの線、曲線、単純軸を学習します。
論文参考訳（メタデータ） (2021-02-20T23:26:58Z)
Direct Quantization for Training Highly Accurate Low Bit-width Deep Neural Networks [73.29587731448345]
本稿では,低ビット幅重みとアクティベーションで深部畳み込みニューラルネットワークを訓練する2つの新しい手法を提案する。まず、ビット幅の少ない重みを得るため、既存の方法の多くは、全精度ネットワーク重みで量子化することにより量子化重みを得る。第二に、低ビット幅のアクティベーションを得るために、既存の作品はすべてのチャネルを等しく考慮する。
論文参考訳（メタデータ） (2020-12-26T15:21:18Z)
A Greedy Algorithm for Quantizing Neural Networks [4.683806391173103]
本稿では,事前学習したニューラルネットワークの重みを定量化するための計算効率のよい新しい手法を提案する。本手法は,複雑な再学習を必要とせず,反復的に層を定量化する手法である。
論文参考訳（メタデータ） (2020-10-29T22:53:10Z)
Searching for Low-Bit Weights in Quantized Neural Networks [129.8319019563356]
低ビットの重みとアクティベーションを持つ量子ニューラルネットワークは、AIアクセラレータを開発する上で魅力的なものだ。本稿では、任意の量子化ニューラルネットワークにおける離散重みを探索可能な変数とみなし、差分法を用いて正確に探索する。
論文参考訳（メタデータ） (2020-09-18T09:13:26Z)
Neural gradients are near-lognormal: improved quantized and sparse training [35.28451407313548]
神経勾配の分布は概ね対数正規である。神経勾配の計算と記憶の負担を軽減するための2つの閉形式解析法を提案する。我々の知る限り,本論文は,(1)6ビット浮動小数点形式への勾配の定量化,あるいは(2)精度の低い場合において,最大85%の勾配間隔を達成した最初の論文である。
論文参考訳（メタデータ） (2020-06-15T07:00:15Z)
A Generalized Neural Tangent Kernel Analysis for Two-layer Neural Networks [87.23360438947114]
重み劣化を伴う雑音勾配降下は依然として「カーネル様」の挙動を示すことを示す。これは、トレーニング損失が一定の精度まで線形に収束することを意味する。また,重み劣化を伴う雑音勾配勾配勾配で学習した2層ニューラルネットワークに対して,新しい一般化誤差を確立する。
論文参考訳（メタデータ） (2020-02-10T18:56:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。