論文の概要: Memory-Efficient 4-bit Preconditioned Stochastic Optimization
- arxiv url: http://arxiv.org/abs/2412.10663v1
- Date: Sat, 14 Dec 2024 03:32:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:59:07.827830
- Title: Memory-Efficient 4-bit Preconditioned Stochastic Optimization
- Title(参考訳): メモリ効率の良い4ビット事前条件確率最適化
- Authors: Jingyang Li, Kuangyu Ding, Kim-Chuan Toh, Pan Zhou,
- Abstract要約: シャンプーのプリコンディショナーに4ビット量子化を導入する。
我々の知る限り、これはプレコンディショナーのチョレスキー因子に適用された最初の量子化手法である。
- 参考スコア(独自算出の注目度): 53.422307389223626
- License:
- Abstract: Preconditioned stochastic optimization algorithms, exemplified by Shampoo, have demonstrated superior performance over first-order optimizers, providing both theoretical advantages in convergence rates and practical improvements in large-scale neural network training. However, they incur substantial memory overhead due to the storage demands of non-diagonal preconditioning matrices. To address this, we introduce 4-bit quantization for Shampoo's preconditioners. We introduced two key methods: First, we apply Cholesky decomposition followed by quantization of the Cholesky factors, reducing memory usage by leveraging their lower triangular structure while preserving symmetry and positive definiteness to minimize information loss. To our knowledge, this is the first quantization approach applied to Cholesky factors of preconditioners. Second, we incorporate error feedback in the quantization process, efficiently storing Cholesky factors and error states in the lower and upper triangular parts of the same matrix. Through extensive experiments, we demonstrate that combining Cholesky quantization with error feedback enhances memory efficiency and algorithm performance in large-scale deep-learning tasks. Theoretically, we also provide convergence proofs for quantized Shampoo under both smooth and non-smooth stochastic optimization settings.
- Abstract(参考訳): Shampooによって実証された事前条件付き確率最適化アルゴリズムは、一階最適化よりも優れた性能を示しており、収束率の理論上の利点と大規模ニューラルネットワークトレーニングの実践的改善の両方を提供している。
しかし、非対角的プレコンディショニング行列のストレージ要求のため、メモリオーバーヘッドは大幅に増大する。
これを解決するために、シャンプーのプリコンディショナーに対して4ビット量子化を導入する。
まず、Colesky分解に続き、Colesky因子の量子化を行い、情報損失を最小限に抑えるために対称性と正定性を保ちながら、下方三角形構造を利用してメモリ使用量を削減した。
我々の知る限り、これはプレコンディショナーのチョレスキー因子に適用された最初の量子化手法である。
第二に、量子化過程に誤差フィードバックを組み込み、コレスキー因子と誤差状態を同じ行列の下および上三角部分に効率的に保存する。
大規模なディープラーニングタスクにおいて,Colesky量子化とエラーフィードバックを組み合わせることで,メモリ効率とアルゴリズム性能が向上することを示す。
理論的には、スムーズかつ非スムーズな確率最適化条件の下で、量子化シャンプーの収束証明も提供する。
関連論文リスト
- ParetoQ: Scaling Laws in Extremely Low-bit LLM Quantization [58.84018707089315]
本稿では,1ビット,1.58ビット,2ビット,3ビット,4ビットの量子化設定に対して厳密な比較を行う統一フレームワークを提案する。
3次、2ビット、3ビット量子化は、サイズと精度のトレードオフにおいて同等のパフォーマンスを維持していることを示す。
ハードウェアの制約を考慮すると、2ビット量子化はメモリの削減とスピードアップに有望な可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-04T18:59:26Z) - 4-bit Shampoo for Memory-Efficient Network Training [69.08646370812065]
二階計算は理論と実践における一階計算よりも優れている。
32ビット状態を圧縮してビット幅を小さくすることで、メモリ使用量の削減が期待できる。
4ビットシャンプーで実演した最初の4ビットの2階目を提案し,32ビットのシャンプーと同様の性能を維持した。
論文 参考訳(メタデータ) (2024-05-28T13:02:56Z) - Quantization of Large Language Models with an Overdetermined Basis [73.79368761182998]
本稿では,嘉心表現の原理に基づくデータ量子化アルゴリズムを提案する。
以上の結果から, カシ量子化はモデル性能の競争力や優れた品質を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-04-15T12:38:46Z) - Towards Mixed-Precision Quantization of Neural Networks via Constrained
Optimization [28.76708310896311]
本稿では,混合精度量子化問題を解くための原理的枠組みを提案する。
提案手法は原理的手法で導出され,より計算効率がよいことを示す。
論文 参考訳(メタデータ) (2021-10-13T08:09:26Z) - Beyond Neighbourhood-Preserving Transformations for Quantization-Based
Unsupervised Hashing [0.0]
効果的な教師なしハッシュアルゴリズムは、データの近傍構造を可能な限り保存するコンパクトなバイナリコードをもたらす。
厳密な変換を採用することは効果的であるが、量子化損失を究極の限界まで減らすことはできない。
これらの欠点により、量子化誤差と次元性を同時に低減するために、剛性および非剛性変換の両方を採用することを提案する。
論文 参考訳(メタデータ) (2021-10-01T05:13:01Z) - Reducing the Variance of Gaussian Process Hyperparameter Optimization
with Preconditioning [54.01682318834995]
プレコンディショニングは、行列ベクトル乗算を含む反復的な方法にとって非常に効果的なステップである。
プレコンディショニングには、これまで検討されていなかった付加的なメリットがあることを実証する。
基本的に無視可能なコストで、同時に分散を低減することができる。
論文 参考訳(メタデータ) (2021-07-01T06:43:11Z) - SHINE: SHaring the INverse Estimate from the forward pass for bi-level
optimization and implicit models [15.541264326378366]
近年,深層ニューラルネットワークの深度を高める手法として暗黙の深度学習が登場している。
トレーニングは双レベル問題として実行され、その計算複雑性は巨大なヤコビ行列の反復反転によって部分的に駆動される。
本稿では,この計算ボトルネックに対処する新たな手法を提案する。
論文 参考訳(メタデータ) (2021-06-01T15:07:34Z) - Unified Convergence Analysis for Adaptive Optimization with Moving Average Estimator [75.05106948314956]
1次モーメントに対する大きな運動量パラメータの増大は適応的スケーリングに十分であることを示す。
また,段階的に減少するステップサイズに応じて,段階的に運動量を増加させるための洞察を与える。
論文 参考訳(メタデータ) (2021-04-30T08:50:24Z) - Improving the Quantum Approximate Optimization Algorithm with
postselection [0.0]
組合せ最適化は、短期的およびフォールトトレラントな量子コンピュータに想定される主な応用の1つである。
量子近似最適化アルゴリズム(Quantum Approximate Optimization Algorithm, QAOA)は3つの正則グラフ上のMaxCut問題に適用される。
理論上界と下界を導いており、満たされた辺の分数の一定(小さい)増加が実際に達成可能であることを示す。
論文 参考訳(メタデータ) (2020-11-10T22:17:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。