Fugu-MT 論文翻訳(概要): 8-bit Optimizers via Block-wise Quantization

論文の概要: 8-bit Optimizers via Block-wise Quantization

arxiv url: http://arxiv.org/abs/2110.02861v1
Date: Wed, 6 Oct 2021 15:43:20 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-07 20:41:28.455582
Title: 8-bit Optimizers via Block-wise Quantization
Title（参考訳）: ブロックワイド量子化による8ビット最適化
Authors: Tim Dettmers, Mike Lewis, Sam Shleifer, Luke Zettlemoyer
Abstract要約: ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
参考スコア（独自算出の注目度）: 57.25800395197516
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Stateful optimizers maintain gradient statistics over time, e.g., the exponentially smoothed sum (SGD with momentum) or squared sum (Adam) of past gradient values. This state can be used to accelerate optimization compared to plain stochastic gradient descent but uses memory that might otherwise be allocated to model parameters, thereby limiting the maximum size of models trained in practice. In this paper, we develop the first optimizers that use 8-bit statistics while maintaining the performance levels of using 32-bit optimizer states. To overcome the resulting computational, quantization, and stability challenges, we develop block-wise dynamic quantization. Block-wise quantization divides input tensors into smaller blocks that are independently quantized. Each block is processed in parallel across cores, yielding faster optimization and high precision quantization. To maintain stability and performance, we combine block-wise quantization with two additional changes: (1) dynamic quantization, a form of non-linear optimization that is precise for both large and small magnitude values, and (2) a stable embedding layer to reduce gradient variance that comes from the highly non-uniform distribution of input tokens in language models. As a result, our 8-bit optimizers maintain 32-bit performance with a small fraction of the memory footprint on a range of tasks, including 1.5B parameter language modeling, GLUE finetuning, ImageNet classification, WMT'14 machine translation, MoCo v2 contrastive ImageNet pretraining+finetuning, and RoBERTa pretraining, without changes to the original optimizer hyperparameters. We open-source our 8-bit optimizers as a drop-in replacement that only requires a two-line code change.
Abstract（参考訳）: ステートフルオプティマイザは、過去の勾配値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間とともに勾配統計を維持できる。この状態は、通常の確率的勾配降下と比較して最適化を加速することができるが、モデルパラメータに割り当てられるメモリを使用するため、実際に訓練されたモデルの最大サイズを制限できる。本稿では,32ビットオプティマイザ状態の使用性能を維持しつつ,8ビット統計を用いた最初のオプティマイザを開発する。計算,量子化,安定性の課題を克服するために,ブロックワイドな量子化を開発する。ブロックワイド量子化は、入力テンソルを独立に量子化する小さなブロックに分割する。各ブロックはコア間で並列に処理され、高速な最適化と高精度な量子化が得られる。安定性と性能を維持するため,ブロックワイド量子化と,(1)大小ともに精度の高い非線形最適化形式である動的量子化,(2)言語モデルにおける入力トークンの非一様分布から生じる勾配分散を低減するための安定な埋め込み層,の2つの追加的な変化を組み合わせた。その結果、8ビットオプティマイザは、1.5Bパラメータ言語モデリング、GLUEファインタニング、ImageNet分類、WMT'14機械翻訳、MoCo v2コントラスト画像Netプリトレーニング+ファインタニング、RoBERTaプリトレーニングなどを含むタスクにおいて、メモリフットプリントのわずかな部分で32ビット性能を維持している。 8ビットオプティマイザを2行のコード変更のみを必要とするドロップイン代替としてオープンソースにしました。

関連論文リスト

Fine-tuning Quantized Neural Networks with Zeroth-order Optimization [18.645267970472936]
量子化ゼロ階最適化(Quantized Zeroth-order Optimization, QZO)は、連続量子化スケールを推定するために摂動させ、訓練を安定させるために方向微分クリッピング法を用いる新しい手法である。 QZOは4ビットLLMの合計メモリコストを18ドル以上削減し、24GBのGPUでLlama-2-13BとStable Diffusion 3.5を微調整できる。
論文参考訳（メタデータ） (2025-05-19T17:55:15Z)
Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics [65.37942405146232]
超低精度量子化により達成された,超軽量な状態要素を持つ新しいタイプのオーバーロードを提案する。提案したSOLOは,精度の低下を最小限に抑え,メモリの大幅な節約(7Bモデルのトレーニング時に約45GB)を実現する。
論文参考訳（メタデータ） (2025-05-01T06:47:45Z)
ParetoQ: Scaling Laws in Extremely Low-bit LLM Quantization [58.84018707089315]
本稿では,1ビット,1.58ビット,2ビット,3ビット,4ビットの量子化設定に対して厳密な比較を行う統一フレームワークを提案する。 3次、2ビット、3ビット量子化は、サイズと精度のトレードオフにおいて同等のパフォーマンスを維持していることを示す。ハードウェアの制約を考慮すると、2ビット量子化はメモリの削減とスピードアップに有望な可能性を秘めている。
論文参考訳（メタデータ） (2025-02-04T18:59:26Z)
COAT: Compressing Optimizer states and Activation for Memory-Efficient FP8 Training [47.07768822212081]
COAT(States and Activations for FP8 Training)は、大規模なモデルをトレーニングする際のメモリフットプリントを大幅に削減するために設計された、新しいFP8トレーニングフレームワークである。 COATは、BF16と比較して、エンドツーエンドのトレーニングメモリフットプリントを1.54倍に効果的に削減する。 COATはまた、BF16と比較して1.43倍のエンドツーエンドのトレーニング速度を達成する。
論文参考訳（メタデータ） (2024-10-25T05:59:30Z)
ABQ-LLM: Arbitrary-Bit Quantized Inference Acceleration for Large Language Models [9.444063879246242]
本稿では,新しい任意のビット量子化アルゴリズムと推論フレームワークであるABQ-LLMを紹介する。様々な量子化設定において優れた性能を実現し、GPU上で効率的な任意の精度の量子化推論を可能にする。
論文参考訳（メタデータ） (2024-08-16T06:39:08Z)
Memory Efficient Optimizers with 4-bit States [22.605392665667136]
我々は、第1モーメントと第2モーメントの詳細な実験分析を通して、状態のビット幅を4ビットまで押し下げる。ブロックサイズを小さくし,行次情報と列次情報の両方を用いて量子化を改善することを提案する。我々の4ビットは、自然言語理解、機械翻訳、画像分類、インストラクションチューニングなど、様々なベンチマークで評価されている。
論文参考訳（メタデータ） (2023-09-04T10:27:17Z)
OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models [57.27101446992148]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。近年のPTQ法はメモリフットプリントの削減とLLMの計算効率の向上に有効である。多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文参考訳（メタデータ） (2023-08-25T02:28:35Z)
Binary and Ternary Natural Language Generation [24.295815261826153]
三項ニューラルネットワークと二項ニューラルネットワークは、乗算不要な計算を可能にする。完全精度ネットワーク上では、複数の桁の効率向上を約束する。しかし、そのようなネットワークの最適化は非常に困難であることが証明されている。要約および機械翻訳の下流タスクにおいて、第1次および第2次変換器モデルを示す。
論文参考訳（メタデータ） (2023-06-02T18:01:02Z)
DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文参考訳（メタデータ） (2023-04-18T15:13:10Z)
LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale [80.86029795281922]
トランスにおけるフィードフォワードおよびアテンションプロジェクション層に対するInt8行列乗算法を開発した。 175Bパラメータ16/32ビットのチェックポイントをロードし、Int8に変換し、直ちに使用することができる。
論文参考訳（メタデータ） (2022-08-15T17:08:50Z)
BBTv2: Pure Black-Box Optimization Can Be Comparable to Gradient Descent for Few-Shot Learning [83.26610968655815]
Black-Box Tuningは、言語モデルの入力に先立って、連続的なプロンプトトークンを最適化するためのデリバティブフリーなアプローチである。 BBTv2は、言語モデルをグラデーションベースの最適化に匹敵する結果を得るために駆動する、純粋なブラックボックス最適化手法である。
論文参考訳（メタデータ） (2022-05-23T11:10:19Z)
Post-Training Sparsity-Aware Quantization [2.2530496464901106]
量子化(quantization)は、ディープニューラルネットワーク(DNN)において、実行性能とハードウェア効率を向上させるために使用されるテクニックである。本研究では,非構造および動的アクティベーション・スパシティを異なる表現粒度に利用したスパーシティー対応量子化(SPARQ)法を提案する。 SPARQは、小さな精度の劣化、広く使われているハードウェアアーキテクチャの2倍の高速化、実用的なハードウェア実装を実現している。
論文参考訳（メタデータ） (2021-05-23T20:12:35Z)
Leveraging Automated Mixed-Low-Precision Quantization for tiny edge microcontrollers [76.30674794049293]
本稿では、HAQフレームワークに基づく自動混合精度量子化フローを提案するが、MCUデバイスのメモリおよび計算特性に特化している。具体的には、強化学習エージェントは、個々の重みとアクティベーションテンソルの2, 4, 8ビットのうち、最高の均一量子化レベルを探索する。重量のみの量子化のために2MBに制限されたMCUクラスのメモリが与えられた場合、混合精度エンジンによって生成された圧縮されたモデルは、最先端のソリューションと同じくらい正確である。
論文参考訳（メタデータ） (2020-08-12T06:09:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。