論文の概要: Memory Efficient Optimizers with 4-bit States
- arxiv url: http://arxiv.org/abs/2309.01507v3
- Date: Fri, 27 Oct 2023 06:24:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 17:06:09.065182
- Title: Memory Efficient Optimizers with 4-bit States
- Title(参考訳): 4ビット状態のメモリ効率最適化
- Authors: Bingrui Li, Jianfei Chen, Jun Zhu
- Abstract要約: 我々は、第1モーメントと第2モーメントの詳細な実験分析を通して、状態のビット幅を4ビットまで押し下げる。
ブロックサイズを小さくし,行次情報と列次情報の両方を用いて量子化を改善することを提案する。
我々の4ビットは、自然言語理解、機械翻訳、画像分類、インストラクションチューニングなど、様々なベンチマークで評価されている。
- 参考スコア(独自算出の注目度): 22.605392665667136
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Optimizer states are a major source of memory consumption for training neural
networks, limiting the maximum trainable model within given memory budget.
Compressing the optimizer states from 32-bit floating points to lower bitwidth
is promising to reduce the training memory footprint, while the current lowest
achievable bitwidth is 8-bit. In this work, we push optimizer states bitwidth
down to 4-bit through a detailed empirical analysis of first and second
moments. Specifically, we find that moments have complicated outlier patterns,
that current block-wise quantization cannot accurately approximate. We use a
smaller block size and propose to utilize both row-wise and column-wise
information for better quantization. We further identify a zero point problem
of quantizing the second moment, and solve this problem with a linear quantizer
that excludes the zero point. Our 4-bit optimizers are evaluated on a wide
variety of benchmarks including natural language understanding, machine
translation, image classification, and instruction tuning. On all the tasks our
optimizers can achieve comparable accuracy with their full-precision
counterparts, while enjoying better memory efficiency.
- Abstract(参考訳): 最適化状態は、ニューラルネットワークをトレーニングするための主要なメモリ消費源であり、与えられたメモリ予算内で最大のトレーニング可能なモデルを制限する。
32ビット浮動小数点から低ビット幅へのオプティマイザ状態の圧縮は、トレーニングメモリフットプリントの削減を約束している。
本研究では,第1モーメントと第2モーメントの詳細な実験解析を通じて,オプティマイザ状態のビット幅を4ビットまで押し下げる。
特に、モーメントには複雑な外れ値パターンがあり、現在のブロックワイズ量子化は正確に近似できない。
ブロックサイズを小さくし,列情報と列情報の両方を用いて量子化を改善することを提案する。
さらに、第2モーメントを量子化するゼロ点問題を特定し、零点を除外する線形量子化器を用いてこの問題を解決する。
4ビットオプティマイザは、自然言語理解、機械翻訳、画像分類、命令チューニングなど、さまざまなベンチマークで評価しています。
すべてのタスクにおいて、最適化者は、より優れたメモリ効率を享受しながら、完全な精度で同等の精度を達成できます。
関連論文リスト
- 4-bit Shampoo for Memory-Efficient Network Training [69.08646370812065]
二階計算は理論と実践における一階計算よりも優れている。
32ビット状態を圧縮してビット幅を小さくすることで、メモリ使用量の削減が期待できる。
4ビットシャンプーで実演した最初の4ビットの2階目を提案し,32ビットのシャンプーと同様の性能を維持した。
論文 参考訳(メタデータ) (2024-05-28T13:02:56Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - Memory Efficient Mixed-Precision Optimizers [4.295034299713293]
混合精度最適化手法は単精度浮動小数点演算と半精度浮動小数点演算の両方を用いる。
実際には、同じレベルの精度を維持しながら、最大25%のメモリ使用率、15%の高速トレーニングを実現しています。
論文 参考訳(メタデータ) (2023-09-21T13:55:29Z) - Optimizing data-flow in Binary Neural Networks [0.0]
本稿では,BNNパイプラインにおけるデータフローと並列性を向上させる新しいトレーニング手法を提案する。
また,ARM命令セットに対するバイナリ直接畳み込みを最適化した実装を提案する。
実験の結果,少なくとも1つの完全精度モデルに対して精度を低下させることなく,推論速度を一貫した改善(最先端の2つのBNNフレームワークと比較して最大1.91と2.73倍)した。
論文 参考訳(メタデータ) (2023-04-03T13:16:33Z) - The case for 4-bit precision: k-bit Inference Scaling Laws [75.4335600212427]
量子化法は、モデル内の各パラメータを表すために必要なビット数を減少させる。
最終的なモデルサイズは、元のモデルのパラメータの数と圧縮率の両方に依存する。
我々は16ビットの入力とkビットのパラメータを持つ35,000以上のゼロショット実験を行い、どの量子化手法が3ビットから8ビットの精度でスケーリングを改善するかを検証した。
論文 参考訳(メタデータ) (2022-12-19T18:48:33Z) - Sub 8-Bit Quantization of Streaming Keyword Spotting Models for Embedded
Chipsets [7.5195830365852085]
本稿では,250Kパラメータのフィードフォワード,ストリーミング,ステートフリーなキーワードスポッティングモデルの全コンポーネントに対する,新しいサブ8ビット量子化対応トレーニングアルゴリズムを提案する。
大規模実験を行い、26,000時間の非特定生産、遠距離場および近距離場音声データをトレーニングする。
論文 参考訳(メタデータ) (2022-07-13T17:46:08Z) - MCUNetV2: Memory-Efficient Patch-based Inference for Tiny Deep Learning [72.80896338009579]
メモリボトルネックは畳み込みニューラルネットワーク(CNN)の設計における不均衡なメモリ分布に起因する。
本稿では,ピークメモリを大幅に削減するパッチ・バイ・パッチ・推論スケジューリングを提案する。
ニューラルアーキテクチャサーチによるプロセスを自動化し、ニューラルアーキテクチャと推論スケジューリングを共同で最適化し、MCUNetV2に導いた。
論文 参考訳(メタデータ) (2021-10-28T17:58:45Z) - 8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。
この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。
本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文 参考訳(メタデータ) (2021-10-06T15:43:20Z) - BitPruning: Learning Bitlengths for Aggressive and Accurate Quantization [57.14179747713731]
精度を維持しつつ,任意の粒度で推論ビット長を最小化するためのトレーニング手法を提案する。
ImageNetでは、平均4.13ビット、3.76ビット、4.36ビットを生成する。
論文 参考訳(メタデータ) (2020-02-08T04:58:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。