論文の概要: Quantized Adam with Error Feedback
- arxiv url: http://arxiv.org/abs/2004.14180v2
- Date: Tue, 15 Jun 2021 04:41:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 13:16:22.643962
- Title: Quantized Adam with Error Feedback
- Title(参考訳): 誤りフィードバックを伴う量子化アダム
- Authors: Congliang Chen, Li Shen, Haozhi Huang, and Wei Liu
- Abstract要約: 本稿では,深層ニューラルネットワークを学習するための適応勾配法の分散変種について述べる。
労働者間の通信コストを低減するために,2種類の量子化方式を取り入れた。
- 参考スコア(独自算出の注目度): 11.91306069500983
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present a distributed variant of adaptive stochastic
gradient method for training deep neural networks in the parameter-server
model. To reduce the communication cost among the workers and server, we
incorporate two types of quantization schemes, i.e., gradient quantization and
weight quantization, into the proposed distributed Adam. Besides, to reduce the
bias introduced by quantization operations, we propose an error-feedback
technique to compensate for the quantized gradient. Theoretically, in the
stochastic nonconvex setting, we show that the distributed adaptive gradient
method with gradient quantization and error-feedback converges to the
first-order stationary point, and that the distributed adaptive gradient method
with weight quantization and error-feedback converges to the point related to
the quantized level under both the single-worker and multi-worker modes. At
last, we apply the proposed distributed adaptive gradient methods to train deep
neural networks. Experimental results demonstrate the efficacy of our methods.
- Abstract(参考訳): 本稿では,パラメータサーバモデルにおける深部ニューラルネットワークの学習のための適応確率勾配法の分散変種について述べる。
作業者とサーバ間の通信コストを低減するため,提案した分散Adamに,勾配量子化と重み量子化という2種類の量子化スキームを組み込んだ。
また,量子化演算によって生じるバイアスを低減するために,量子化勾配を補償する誤差フィードバック手法を提案する。
理論的には, 確率的非凸設定では, 勾配量子化と誤差フィードバックを伴う分散適応勾配法が一階定常点に収束し, 重み量子化と誤差フィードバックを伴う分散適応勾配法が単一作業者モードと複数作業者モードの両方において量子化レベルに関連する点に収束することを示す。
最後に、提案した分散適応勾配法を深層ニューラルネットワークの学習に適用する。
実験の結果,本手法の有効性が示された。
関連論文リスト
- Toward INT4 Fixed-Point Training via Exploring Quantization Error for Gradients [24.973203825917906]
大振幅勾配の誤差の低減は量子化性能を著しく向上させることを示す。
また、大きな勾配に対する小さな量子化誤差を維持するために、量子化間隔を適応的に調整する間隔更新アルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-07-17T15:06:12Z) - Flattened one-bit stochastic gradient descent: compressed distributed optimization with controlled variance [55.01966743652196]
パラメータ・サーバ・フレームワークにおける圧縮勾配通信を用いた分散勾配降下(SGD)のための新しいアルゴリズムを提案する。
平坦な1ビット勾配勾配勾配法(FO-SGD)は2つの単純なアルゴリズムの考え方に依存している。
論文 参考訳(メタデータ) (2024-05-17T21:17:27Z) - Improved Quantization Strategies for Managing Heavy-tailed Gradients in
Distributed Learning [20.91559450517002]
その結果, 勾配分布は重く, アウトレーヤは圧縮戦略の設計に大きく影響していることがわかった。
既存のパラメータ量子化法は、この重み付き特徴が無視されるときに性能劣化を経験する。
重み付き勾配勾配に特化して設計された新しい圧縮スキームを導入し, トラルニケーションと量子化を効果的に組み合わせた。
論文 参考訳(メタデータ) (2024-02-02T06:14:31Z) - On Uniform Scalar Quantization for Learned Image Compression [17.24702997651976]
その結果,サロゲートとラウンドリングの相違が列車のミスマッチの原因となり,サロゲートによる勾配推定のリスクが生じた。
解析により,推定量化潜在分布の分散に対する適切な下限を設定することで,列車のミスマッチを効果的に低減する2つの微妙なトリックが明らかになった。
本手法は,様々な画像圧縮ネットワークにおいて,従来の量子化サロゲートよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-09-29T08:23:36Z) - Quantization Aware Factorization for Deep Neural Network Compression [20.04951101799232]
畳み込み層と完全連結層の分解は、ニューラルネットワークにおけるパラメータとFLOPを減らす効果的な方法である。
従来のトレーニング後量子化手法は重み付きネットワークに適用され、精度が低下する。
これは、分解された近似を量子化因子で直接発見するアルゴリズムを開発する動機となった。
論文 参考訳(メタデータ) (2023-08-08T21:38:02Z) - Regularized Vector Quantization for Tokenized Image Synthesis [126.96880843754066]
画像の離散表現への量子化は、統合生成モデリングにおける根本的な問題である。
決定論的量子化は、厳しいコードブックの崩壊と推論段階の誤調整に悩まされ、一方、量子化は、コードブックの利用率の低下と再構築の目的に悩まされる。
本稿では、2つの視点から正規化を適用することにより、上記の問題を効果的に緩和できる正規化ベクトル量子化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-11T15:20:54Z) - Cluster-Promoting Quantization with Bit-Drop for Minimizing Network
Quantization Loss [61.26793005355441]
クラスタ・プロモーティング・量子化(CPQ)は、ニューラルネットワークに最適な量子化グリッドを見つける。
DropBitsは、ニューロンの代わりにランダムにビットをドロップする標準のドロップアウト正規化を改訂する新しいビットドロップ技術である。
本手法を様々なベンチマークデータセットとネットワークアーキテクチャ上で実験的に検証する。
論文 参考訳(メタデータ) (2021-09-05T15:15:07Z) - Path Sample-Analytic Gradient Estimators for Stochastic Binary Networks [78.76880041670904]
二進的アクティベーションや二進的重みを持つニューラルネットワークでは、勾配降下によるトレーニングは複雑である。
そこで本研究では,サンプリングと解析近似を併用した新しい推定法を提案する。
勾配推定において高い精度を示し、深部畳み込みモデルにおいてより安定かつ優れた訓練を行うことを示す。
論文 参考訳(メタデータ) (2020-06-04T21:51:21Z) - Optimal Gradient Quantization Condition for Communication-Efficient
Distributed Training [99.42912552638168]
勾配の通信は、コンピュータビジョンアプリケーションで複数のデバイスでディープニューラルネットワークをトレーニングするのに費用がかかる。
本研究は,textbfANY勾配分布に対する二値および多値勾配量子化の最適条件を導出する。
最適条件に基づいて, 偏差BinGradと非偏差ORQの2値勾配量子化と多値勾配量子化の2つの新しい量子化手法を開発した。
論文 参考訳(メタデータ) (2020-02-25T18:28:39Z) - Gradient $\ell_1$ Regularization for Quantization Robustness [70.39776106458858]
トレーニング後の量子化に対するロバスト性を改善するための単純な正規化スキームを導出する。
量子化対応ネットワークをトレーニングすることにより、異なるビット幅にオンデマンドで量子化できる1組の重みを格納できる。
論文 参考訳(メタデータ) (2020-02-18T12:31:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。