論文の概要: 4-bit Shampoo for Memory-Efficient Network Training
- arxiv url: http://arxiv.org/abs/2405.18144v1
- Date: Tue, 28 May 2024 13:02:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 18:39:07.997897
- Title: 4-bit Shampoo for Memory-Efficient Network Training
- Title(参考訳): メモリ効率の良いネットワークトレーニングのための4ビットシャンプー
- Authors: Sike Wang, Jia Li, Pan Zhou, Hua Huang,
- Abstract要約: 二階計算は理論と実践における一階計算よりも優れている。
32ビット状態を圧縮してビット幅を小さくすることで、メモリ使用量の削減が期待できる。
4ビットシャンプーに例えられた最初の4ビットの2次数を提案し,32ビットのシャンプーに類似した性能を維持した。
- 参考スコア(独自算出の注目度): 69.08646370812065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Second-order optimizers, maintaining a matrix termed a preconditioner, are superior to first-order optimizers in both theory and practice. The states forming the preconditioner and its inverse root restrict the maximum size of models trained by second-order optimizers. To address this, compressing 32-bit optimizer states to lower bitwidths has shown promise in reducing memory usage. However, current approaches only pertain to first-order optimizers. In this paper, we propose the first 4-bit second-order optimizers, exemplified by 4-bit Shampoo, maintaining performance similar to that of 32-bit ones. We show that quantizing the eigenvector matrix of the preconditioner in 4-bit Shampoo is remarkably better than quantizing the preconditioner itself both theoretically and experimentally. By rectifying the orthogonality of the quantized eigenvector matrix, we enhance the approximation of the preconditioner's eigenvector matrix, which also benefits the computation of its inverse 4-th root. Besides, we find that linear square quantization slightly outperforms dynamic tree quantization when quantizing second-order optimizer states. Evaluation on various networks for image classification demonstrates that our 4-bit Shampoo achieves comparable test accuracy to its 32-bit counterpart while being more memory-efficient. The source code will be made available.
- Abstract(参考訳): プリコンディショナーと呼ばれる行列を維持する二階最適化器は理論と実践の両方において一階最適化器よりも優れている。
プレコンディショナーを構成する状態とその逆根は、二階最適化器によって訓練されたモデルの最大サイズを制限する。
これを解決するため、32ビットオプティマイザステートを圧縮してビット幅を小さくすることで、メモリ使用量の削減が期待できる。
しかし、現在のアプローチは1次オプティマイザのみに依存している。
本稿では,4ビットシャンプーに代表される最初の4ビット2次最適化器を提案し,32ビットのシャンプーと同様の性能を維持した。
4ビットシャンプーにおけるプレコンディショナーの固有ベクトル行列の定量化は,理論上も実験上も,プリコンディショナー自体の定量化よりも著しく優れていることを示す。
量子化された固有ベクトル行列の直交性を補正することにより、プレコンディショナーの固有ベクトル行列の近似を強化し、逆の4番目の根の計算にも役立てる。
さらに、線形二乗量子化は2次オプティマイザ状態の量子化時に動的ツリー量子化をわずかに上回る。
画像分類のための様々なネットワークの評価により、我々の4ビットシャンプーは、よりメモリ効率のよい32ビットと同等のテスト精度を達成していることが示された。
ソースコードは利用可能になる。
関連論文リスト
- A Computationally Efficient Sparsified Online Newton Method [48.78646010774149]
Sparsified Online Newton (SONew) はメモリ効率の良い2次アルゴリズムである。
最大で30%の高速化,3.4%の妥当性向上,80%のトレーニング損失の相対的改善を実現しています。
論文 参考訳(メタデータ) (2023-11-16T18:44:22Z) - QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language
Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。
これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。
我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文 参考訳(メタデータ) (2023-10-13T17:15:05Z) - Memory Efficient Optimizers with 4-bit States [22.605392665667136]
我々は、第1モーメントと第2モーメントの詳細な実験分析を通して、状態のビット幅を4ビットまで押し下げる。
ブロックサイズを小さくし,行次情報と列次情報の両方を用いて量子化を改善することを提案する。
我々の4ビットは、自然言語理解、機械翻訳、画像分類、インストラクションチューニングなど、様々なベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-09-04T10:27:17Z) - KrADagrad: Kronecker Approximation-Domination Gradient Preconditioned
Stochastic Optimization [69.47358238222586]
第2の順序付けにより、パラメータのステップサイズと方向を変更でき、損失曲率に適応できる。
最近、シャンプーはこれらの要求を減らすためにクローネッカーファクター付きプレコンディショナーを導入した。
不条件行列の逆行列根を取る。
これは64ビットの精度が必要で、ハードウェアの制約が強い。
論文 参考訳(メタデータ) (2023-05-30T21:15:45Z) - Size optimization of CNOT circuits on NISQ [13.391818915679796]
ノイズの多い中間規模量子(NISQ)デバイス上でのCNOT回路の最適化について検討する。
我々はこのアルゴリズムをIBM20や他のNISQデバイス上で実装し、その結果は他の実験方法よりも優れている。
論文 参考訳(メタデータ) (2022-10-11T06:44:04Z) - 8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。
この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。
本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文 参考訳(メタデータ) (2021-10-06T15:43:20Z) - Reducing the Variance of Gaussian Process Hyperparameter Optimization
with Preconditioning [54.01682318834995]
プレコンディショニングは、行列ベクトル乗算を含む反復的な方法にとって非常に効果的なステップである。
プレコンディショニングには、これまで検討されていなかった付加的なメリットがあることを実証する。
基本的に無視可能なコストで、同時に分散を低減することができる。
論文 参考訳(メタデータ) (2021-07-01T06:43:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。