論文の概要: 8-bit Optimizers via Block-wise Quantization
- arxiv url: http://arxiv.org/abs/2110.02861v1
- Date: Wed, 6 Oct 2021 15:43:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-07 20:41:28.455582
- Title: 8-bit Optimizers via Block-wise Quantization
- Title(参考訳): ブロックワイド量子化による8ビット最適化
- Authors: Tim Dettmers, Mike Lewis, Sam Shleifer, Luke Zettlemoyer
- Abstract要約: ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。
この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。
本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
- 参考スコア(独自算出の注目度): 57.25800395197516
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Stateful optimizers maintain gradient statistics over time, e.g., the
exponentially smoothed sum (SGD with momentum) or squared sum (Adam) of past
gradient values. This state can be used to accelerate optimization compared to
plain stochastic gradient descent but uses memory that might otherwise be
allocated to model parameters, thereby limiting the maximum size of models
trained in practice. In this paper, we develop the first optimizers that use
8-bit statistics while maintaining the performance levels of using 32-bit
optimizer states. To overcome the resulting computational, quantization, and
stability challenges, we develop block-wise dynamic quantization. Block-wise
quantization divides input tensors into smaller blocks that are independently
quantized. Each block is processed in parallel across cores, yielding faster
optimization and high precision quantization. To maintain stability and
performance, we combine block-wise quantization with two additional changes:
(1) dynamic quantization, a form of non-linear optimization that is precise for
both large and small magnitude values, and (2) a stable embedding layer to
reduce gradient variance that comes from the highly non-uniform distribution of
input tokens in language models. As a result, our 8-bit optimizers maintain
32-bit performance with a small fraction of the memory footprint on a range of
tasks, including 1.5B parameter language modeling, GLUE finetuning, ImageNet
classification, WMT'14 machine translation, MoCo v2 contrastive ImageNet
pretraining+finetuning, and RoBERTa pretraining, without changes to the
original optimizer hyperparameters. We open-source our 8-bit optimizers as a
drop-in replacement that only requires a two-line code change.
- Abstract(参考訳): ステートフルオプティマイザは、過去の勾配値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間とともに勾配統計を維持できる。
この状態は、通常の確率的勾配降下と比較して最適化を加速することができるが、モデルパラメータに割り当てられるメモリを使用するため、実際に訓練されたモデルの最大サイズを制限できる。
本稿では,32ビットオプティマイザ状態の使用性能を維持しつつ,8ビット統計を用いた最初のオプティマイザを開発する。
計算,量子化,安定性の課題を克服するために,ブロックワイドな量子化を開発する。
ブロックワイド量子化は、入力テンソルを独立に量子化する小さなブロックに分割する。
各ブロックはコア間で並列に処理され、高速な最適化と高精度な量子化が得られる。
安定性と性能を維持するため,ブロックワイド量子化と,(1)大小ともに精度の高い非線形最適化形式である動的量子化,(2)言語モデルにおける入力トークンの非一様分布から生じる勾配分散を低減するための安定な埋め込み層,の2つの追加的な変化を組み合わせた。
その結果、8ビットオプティマイザは、1.5Bパラメータ言語モデリング、GLUEファインタニング、ImageNet分類、WMT'14機械翻訳、MoCo v2コントラスト画像Netプリトレーニング+ファインタニング、RoBERTaプリトレーニングなどを含むタスクにおいて、メモリフットプリントのわずかな部分で32ビット性能を維持している。
8ビットオプティマイザを2行のコード変更のみを必要とするドロップイン代替としてオープンソースにしました。
関連論文リスト
- Memory Efficient Optimizers with 4-bit States [22.605392665667136]
我々は、第1モーメントと第2モーメントの詳細な実験分析を通して、状態のビット幅を4ビットまで押し下げる。
ブロックサイズを小さくし,行次情報と列次情報の両方を用いて量子化を改善することを提案する。
我々の4ビットは、自然言語理解、機械翻訳、画像分類、インストラクションチューニングなど、様々なベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-09-04T10:27:17Z) - OmniQuant: Omnidirectionally Calibrated Quantization for Large Language
Models [59.176603429408225]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
最近のPTQ法はメモリフットプリントの削減に有効であるが、極端に低ビットの量子化に対処できない。
多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文 参考訳(メタデータ) (2023-08-25T02:28:35Z) - Analyzing Quantization in TVM [0.0]
TVMは重量を定量化し、低ビット計算をサポートする。
8ビットの量子化は通常、全精度推論時間の約50%を達成することが期待されている。
本研究の目的は,TVMにおける8ビット量子化の互換性と最適化の機会を評価することにある。
論文 参考訳(メタデータ) (2023-08-19T07:39:46Z) - Binary and Ternary Natural Language Generation [24.295815261826153]
三項ニューラルネットワークと二項ニューラルネットワークは、乗算不要な計算を可能にする。
完全精度ネットワーク上では、複数の桁の効率向上を約束する。
しかし、そのようなネットワークの最適化は非常に困難であることが証明されている。
要約および機械翻訳の下流タスクにおいて、第1次および第2次変換器モデルを示す。
論文 参考訳(メタデータ) (2023-06-02T18:01:02Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale [80.86029795281922]
トランスにおけるフィードフォワードおよびアテンションプロジェクション層に対するInt8行列乗算法を開発した。
175Bパラメータ16/32ビットのチェックポイントをロードし、Int8に変換し、直ちに使用することができる。
論文 参考訳(メタデータ) (2022-08-15T17:08:50Z) - BBTv2: Pure Black-Box Optimization Can Be Comparable to Gradient Descent
for Few-Shot Learning [83.26610968655815]
Black-Box Tuningは、言語モデルの入力に先立って、連続的なプロンプトトークンを最適化するためのデリバティブフリーなアプローチである。
BBTv2は、言語モデルをグラデーションベースの最適化に匹敵する結果を得るために駆動する、純粋なブラックボックス最適化手法である。
論文 参考訳(メタデータ) (2022-05-23T11:10:19Z) - Post-Training Sparsity-Aware Quantization [2.2530496464901106]
量子化(quantization)は、ディープニューラルネットワーク(DNN)において、実行性能とハードウェア効率を向上させるために使用されるテクニックである。
本研究では,非構造および動的アクティベーション・スパシティを異なる表現粒度に利用したスパーシティー対応量子化(SPARQ)法を提案する。
SPARQは、小さな精度の劣化、広く使われているハードウェアアーキテクチャの2倍の高速化、実用的なハードウェア実装を実現している。
論文 参考訳(メタデータ) (2021-05-23T20:12:35Z) - Sparse Systolic Tensor Array for Efficient CNN Hardware Acceleration [14.958793135751149]
モバイルデバイス上の畳み込みニューラルネットワーク(CNN)推論は、低精度(INT8)汎用行列乗算(GEMM)の効率的なハードウェアアクセラレーションを必要とする
CNN推論のGEMMをさらに加速する一般的な手法であり、特に、構造的スパーシリティは予測可能な負荷分散と非常に低いインデックスオーバーヘッドの利点がある。
ハードウェアの高利用を保ちながら、さまざまな分散レベルのサポートを提供する方法について、構造的疎結合で重要なアーキテクチャ上の課題に対処する。
論文 参考訳(メタデータ) (2020-09-04T20:17:42Z) - Leveraging Automated Mixed-Low-Precision Quantization for tiny edge
microcontrollers [76.30674794049293]
本稿では、HAQフレームワークに基づく自動混合精度量子化フローを提案するが、MCUデバイスのメモリおよび計算特性に特化している。
具体的には、強化学習エージェントは、個々の重みとアクティベーションテンソルの2, 4, 8ビットのうち、最高の均一量子化レベルを探索する。
重量のみの量子化のために2MBに制限されたMCUクラスのメモリが与えられた場合、混合精度エンジンによって生成された圧縮されたモデルは、最先端のソリューションと同じくらい正確である。
論文 参考訳(メタデータ) (2020-08-12T06:09:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。