論文の概要: Memory-Efficient 4-bit Preconditioned Stochastic Optimization
- arxiv url: http://arxiv.org/abs/2412.10663v2
- Date: Wed, 12 Mar 2025 09:19:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 16:44:43.468283
- Title: Memory-Efficient 4-bit Preconditioned Stochastic Optimization
- Title(参考訳): メモリ効率の良い4ビット事前条件確率最適化
- Authors: Jingyang Li, Kuangyu Ding, Kim-Chuan Toh, Pan Zhou,
- Abstract要約: シャンプーのプリコンディショナーに4ビット量子化を導入する。
我々の知る限り、これはプレコンディショナーのチョレスキー因子に適用された最初の量子化手法である。
Cholesky量子化とエラーフィードバックを組み合わせることで、メモリ効率とアルゴリズム性能が向上することを示した。
- 参考スコア(独自算出の注目度): 53.422307389223626
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Preconditioned stochastic optimization algorithms, exemplified by Shampoo, outperform first-order optimizers by offering theoretical convergence benefits and practical gains in large-scale neural network training. However, they incur substantial memory overhead due to the storage demands of non-diagonal preconditioning matrices. To address this, we introduce 4-bit quantization for Shampoo's preconditioners. We introduce two key methods: First, we apply Cholesky decomposition followed by quantization of the Cholesky factors, reducing memory usage by leveraging their lower triangular structure while better preserving spectral properties to minimize information loss. To our knowledge, this is the first quantization approach applied to Cholesky factors of preconditioners. Second, we incorporate error feedback in the quantization process, efficiently storing Cholesky factor and error state in the lower and upper triangular parts of the same matrix. Through extensive experiments, we demonstrate that combining Cholesky quantization with error feedback enhances memory efficiency and algorithm performance in large-scale deep-learning tasks. Theoretically, we also provide convergence proofs for quantized Shampoo under both smooth and non-smooth stochastic optimization settings.
- Abstract(参考訳): Shampooによって実証された事前条件付き確率最適化アルゴリズムは、理論収束の利点と大規模ニューラルネットワークトレーニングにおける実用的なゲインを提供することで、一階最適化よりも優れている。
しかし、非対角的プレコンディショニング行列のストレージ要求のため、メモリオーバーヘッドは大幅に増大する。
これを解決するために、シャンプーのプリコンディショナーに対して4ビット量子化を導入する。
まず、Colesky分解に続いてColesky分解を行い、Colesky因子の量子化を行い、より低い三角形構造を利用しながらスペクトル特性を保存し、情報損失を最小限に抑えることでメモリ使用量を削減する。
我々の知る限り、これはプレコンディショナーのチョレスキー因子に適用された最初の量子化手法である。
第二に、量子化過程に誤差フィードバックを組み込み、コレスキー因子と誤差状態を同じ行列の下および上三角部分に効率的に保存する。
大規模なディープラーニングタスクにおいて,Colesky量子化とエラーフィードバックを組み合わせることで,メモリ効率とアルゴリズム性能が向上することを示す。
理論的には、スムーズかつ非スムーズな確率最適化条件の下で、量子化シャンプーの収束証明も提供する。
関連論文リスト
- Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics [65.37942405146232]
超低精度量子化により達成された,超軽量な状態要素を持つ新しいタイプのオーバーロードを提案する。
提案したSOLOは,精度の低下を最小限に抑え,メモリの大幅な節約(7Bモデルのトレーニング時に約45GB)を実現する。
論文 参考訳(メタデータ) (2025-05-01T06:47:45Z) - Preparation Circuits for Matrix Product States by Classical Variational Disentanglement [0.0]
行列積状態(MPS)の作成のための量子回路の古典的コンパイルについて検討する。
提案アルゴリズムは, 逆アンタングル法により, 従来の逐次的アプローチに準じて, 短期的な代替となる。
複数の量子ビット間の絡み合いを人工的に広げるだけでなく、一次元の局所ハミルトニアンの基底状態に対する数値的な結果を示す。
論文 参考訳(メタデータ) (2025-04-30T04:13:01Z) - Gaussian boson sampling for binary optimization [0.0]
本稿では,2値最適化問題に対処するために,しきい値検出器を備えたパラメトリゼーションガウスボソンサンプリング(GBS)を提案する。
3SATおよびグラフ問題に関する数値実験は、ランダムな推測よりも顕著な性能向上を示した。
論文 参考訳(メタデータ) (2024-12-19T12:12:22Z) - 4-bit Shampoo for Memory-Efficient Network Training [69.08646370812065]
二階計算は理論と実践における一階計算よりも優れている。
32ビット状態を圧縮してビット幅を小さくすることで、メモリ使用量の削減が期待できる。
4ビットシャンプーで実演した最初の4ビットの2階目を提案し,32ビットのシャンプーと同様の性能を維持した。
論文 参考訳(メタデータ) (2024-05-28T13:02:56Z) - Unlocking Data-free Low-bit Quantization with Matrix Decomposition for KV Cache Compression [87.5604418100301]
キー値(KV)キャッシングは,大規模言語モデルの推論を高速化する重要な手法である。
既存の手法はしばしば精度を損なうか、キャリブレーションのために余分なデータを必要とする。
テンソル分解法に基づく新しいデータフリー低ビット量子化手法である textbfDecoQuant を導入する。
論文 参考訳(メタデータ) (2024-05-21T08:35:10Z) - Quantization of Large Language Models with an Overdetermined Basis [73.79368761182998]
本稿では,嘉心表現の原理に基づくデータ量子化アルゴリズムを提案する。
以上の結果から, カシ量子化はモデル性能の競争力や優れた品質を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-04-15T12:38:46Z) - Quantum Approximation Optimization Algorithm for the Trellis based Viterbi Decoding of Classical Error Correcting Codes [0.0]
古典的誤り訂正符号のためのハイブリッド量子古典型ビタビデコーダを構築する。
量子近似最適化アルゴリズムは、受信した誤ベクトルに対して最小距離のトレリス上の任意の経路を見つけることができることを示す。
論文 参考訳(メタデータ) (2023-04-05T08:25:14Z) - Automatic and effective discovery of quantum kernels [43.702574335089736]
量子コンピューティングは、カーネルマシンが量子カーネルを利用してデータ間の類似度を表現できるようにすることで、機械学習モデルを強化することができる。
本稿では,ニューラルアーキテクチャ検索やAutoMLと同じような最適化手法を用いて,異なるアプローチを提案する。
その結果、高エネルギー物理問題に対する我々のアプローチを検証した結果、最良のシナリオでは、手動設計のアプローチに関して、テストの精度を一致または改善できることが示された。
論文 参考訳(メタデータ) (2022-09-22T16:42:14Z) - Towards Mixed-Precision Quantization of Neural Networks via Constrained
Optimization [28.76708310896311]
本稿では,混合精度量子化問題を解くための原理的枠組みを提案する。
提案手法は原理的手法で導出され,より計算効率がよいことを示す。
論文 参考訳(メタデータ) (2021-10-13T08:09:26Z) - Beyond Neighbourhood-Preserving Transformations for Quantization-Based
Unsupervised Hashing [0.0]
効果的な教師なしハッシュアルゴリズムは、データの近傍構造を可能な限り保存するコンパクトなバイナリコードをもたらす。
厳密な変換を採用することは効果的であるが、量子化損失を究極の限界まで減らすことはできない。
これらの欠点により、量子化誤差と次元性を同時に低減するために、剛性および非剛性変換の両方を採用することを提案する。
論文 参考訳(メタデータ) (2021-10-01T05:13:01Z) - Unified Convergence Analysis for Adaptive Optimization with Moving Average Estimator [75.05106948314956]
1次モーメントに対する大きな運動量パラメータの増大は適応的スケーリングに十分であることを示す。
また,段階的に減少するステップサイズに応じて,段階的に運動量を増加させるための洞察を与える。
論文 参考訳(メタデータ) (2021-04-30T08:50:24Z) - Improving the Quantum Approximate Optimization Algorithm with
postselection [0.0]
組合せ最適化は、短期的およびフォールトトレラントな量子コンピュータに想定される主な応用の1つである。
量子近似最適化アルゴリズム(Quantum Approximate Optimization Algorithm, QAOA)は3つの正則グラフ上のMaxCut問題に適用される。
理論上界と下界を導いており、満たされた辺の分数の一定(小さい)増加が実際に達成可能であることを示す。
論文 参考訳(メタデータ) (2020-11-10T22:17:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。