論文の概要: Memory Efficient Optimizers with 4-bit States
- arxiv url: http://arxiv.org/abs/2309.01507v1
- Date: Mon, 4 Sep 2023 10:27:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 19:02:56.240225
- Title: Memory Efficient Optimizers with 4-bit States
- Title(参考訳): 4ビット状態のメモリ効率最適化
- Authors: Bingrui Li, Jianfei Chen, Jun Zhu
- Abstract要約: 我々は、第1位と第2位の運動量の詳細な実験分析を通して、状態のビット幅を4ビットまで押し下げる。
具体的には、運動量には複雑なパターンがあり、現在のブロックワイド量子化は正確に近似できない。
ブロックサイズを小さくし,行次情報と列次情報の両方を用いて量子化を改善することを提案する。
- 参考スコア(独自算出の注目度): 22.605392665667136
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Optimizer states are a major source of memory consumption for training neural
networks, limiting the maximum trainable model within given memory budget.
Compressing the optimizer states from 32-bit floating points to lower bitwidth
is promising to reduce the training memory footprint, while the current lowest
achievable bitwidth is 8-bit. In this work, we push optimizer states bitwidth
down to 4-bit through a detailed empirical analysis of first and second order
momentums. Specifically, we find that momentums have complicated outlier
patterns, that current block-wise quantization cannot accurately approximate.
We use a smaller block size and propose to utilize both row-wise and
column-wise information for better quantization. We further identify a zero
point problem of quantizing the second-order momentum, and solve this problem
with a linear quantizer that excludes the zero point. Our 4-bit optimizer is
evaluated on a wide variety of benchmarks including natural language
understanding, machine translation, image classification, and instruction
tuning. On all the tasks our optimizers can achieve comparable accuracy with
their full-precision counterparts, while enjoying better memory efficiency.
- Abstract(参考訳): 最適化状態は、ニューラルネットワークをトレーニングするための主要なメモリ消費源であり、与えられたメモリ予算内で最大のトレーニング可能なモデルを制限する。
32ビット浮動小数点から低ビット幅へのオプティマイザ状態の圧縮は、トレーニングメモリフットプリントの削減を約束している。
本研究では,第1次および第2次運動量の詳細な実験解析により,オプティマイザ状態のビット幅を4ビットまで押し下げる。
具体的には、運動量には複雑な外れ値パターンがあり、現在のブロックワイズ量子化は正確に近似できない。
ブロックサイズを小さくし,列情報と列情報の両方を用いて量子化を改善することを提案する。
さらに、二階運動量を量子化するゼロ点問題を特定し、これをゼロ点を除外する線形量子化器で解く。
4ビットオプティマイザは,自然言語理解,機械翻訳,画像分類,命令チューニングなど,さまざまなベンチマークで評価されている。
すべてのタスクにおいて、最適化者は、より優れたメモリ効率を享受しながら、完全な精度で同等の精度を達成できます。
関連論文リスト
- SageAttention2 Technical Report: Accurate 4 Bit Attention for Plug-and-play Inference Acceleration [22.551095978580147]
SageAttention2を提案する。これは精度向上とともに,より高速な4ビット行列乗算(Matmul)を実現する。
時間ステップと層間の量子化精度を解析し、エンドツーエンドのメトリクスを保証するための適応量子化手法を提案する。
実験により、我々のアプローチは様々なモデルにまたがって無視できるエンドツーエンドのメトリクス損失を引き起こすことを確認した。
論文 参考訳(メタデータ) (2024-11-17T04:35:49Z) - 4-bit Shampoo for Memory-Efficient Network Training [69.08646370812065]
二階計算は理論と実践における一階計算よりも優れている。
32ビット状態を圧縮してビット幅を小さくすることで、メモリ使用量の削減が期待できる。
4ビットシャンプーで実演した最初の4ビットの2階目を提案し,32ビットのシャンプーと同様の性能を維持した。
論文 参考訳(メタデータ) (2024-05-28T13:02:56Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - Optimizing data-flow in Binary Neural Networks [0.0]
本稿では,BNNパイプラインにおけるデータフローと並列性を向上させる新しいトレーニング手法を提案する。
また,ARM命令セットに対するバイナリ直接畳み込みを最適化した実装を提案する。
実験の結果,少なくとも1つの完全精度モデルに対して精度を低下させることなく,推論速度を一貫した改善(最先端の2つのBNNフレームワークと比較して最大1.91と2.73倍)した。
論文 参考訳(メタデータ) (2023-04-03T13:16:33Z) - The case for 4-bit precision: k-bit Inference Scaling Laws [75.4335600212427]
量子化法は、モデル内の各パラメータを表すために必要なビット数を減少させる。
最終的なモデルサイズは、元のモデルのパラメータの数と圧縮率の両方に依存する。
我々は16ビットの入力とkビットのパラメータを持つ35,000以上のゼロショット実験を行い、どの量子化手法が3ビットから8ビットの精度でスケーリングを改善するかを検証した。
論文 参考訳(メタデータ) (2022-12-19T18:48:33Z) - Sub 8-Bit Quantization of Streaming Keyword Spotting Models for Embedded
Chipsets [7.5195830365852085]
本稿では,250Kパラメータのフィードフォワード,ストリーミング,ステートフリーなキーワードスポッティングモデルの全コンポーネントに対する,新しいサブ8ビット量子化対応トレーニングアルゴリズムを提案する。
大規模実験を行い、26,000時間の非特定生産、遠距離場および近距離場音声データをトレーニングする。
論文 参考訳(メタデータ) (2022-07-13T17:46:08Z) - MCUNetV2: Memory-Efficient Patch-based Inference for Tiny Deep Learning [72.80896338009579]
メモリボトルネックは畳み込みニューラルネットワーク(CNN)の設計における不均衡なメモリ分布に起因する。
本稿では,ピークメモリを大幅に削減するパッチ・バイ・パッチ・推論スケジューリングを提案する。
ニューラルアーキテクチャサーチによるプロセスを自動化し、ニューラルアーキテクチャと推論スケジューリングを共同で最適化し、MCUNetV2に導いた。
論文 参考訳(メタデータ) (2021-10-28T17:58:45Z) - 8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。
この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。
本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文 参考訳(メタデータ) (2021-10-06T15:43:20Z) - BitPruning: Learning Bitlengths for Aggressive and Accurate Quantization [57.14179747713731]
精度を維持しつつ,任意の粒度で推論ビット長を最小化するためのトレーニング手法を提案する。
ImageNetでは、平均4.13ビット、3.76ビット、4.36ビットを生成する。
論文 参考訳(メタデータ) (2020-02-08T04:58:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。