論文の概要: Dynamic Stashing Quantization for Efficient Transformer Training
- arxiv url: http://arxiv.org/abs/2303.05295v1
- Date: Thu, 9 Mar 2023 14:44:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-10 14:30:57.692593
- Title: Dynamic Stashing Quantization for Efficient Transformer Training
- Title(参考訳): 効率的な変圧器訓練のための動的スタッシング量子化
- Authors: Guo Yang, Daniel Lo, Robert Mullins, Yiren Zhao
- Abstract要約: 大規模言語モデル(LLM)は、自然言語処理(NLP)タスクにおいて、印象的なパフォーマンスを示している。
LLMトレーニングに必要な膨大な計算量とメモリアクセスは、ハードウェアコストの点で極めて高価である。
本稿では,動的スタッシング量子化(DSQ)と呼ばれる新しい動的量子化戦略を提案する。
- 参考スコア(独自算出の注目度): 4.930533932212726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated impressive performance on a
range of Natural Language Processing (NLP) tasks. Unfortunately, the immense
amount of computations and memory accesses required for LLM training makes them
prohibitively expensive in terms of hardware cost, and thus challenging to
deploy in use cases such as on-device learning. In this paper, motivated by the
observation that LLM training is memory-bound, we propose a novel dynamic
quantization strategy, termed Dynamic Stashing Quantization (DSQ), that puts a
special focus on reducing the memory operations, but also enjoys the other
benefits of low precision training, such as the reduced arithmetic cost. We
conduct a thorough study on two translation tasks (trained-from-scratch) and
three classification tasks (fine-tuning). DSQ reduces the amount of arithmetic
operations by $20.95\times$ and the number of DRAM operations by $2.55\times$
on IWSLT17 compared to the standard 16-bit fixed-point, which is widely used in
on-device learning.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語処理(NLP)タスクにおいて、印象的なパフォーマンスを示している。
残念なことに、LLMトレーニングに必要な膨大な計算量とメモリアクセスは、ハードウェアコストの点で極めて高価であり、デバイス上での学習のようなユースケースでのデプロイが困難である。
本稿では,llmトレーニングがメモリバウンドであるという観測に動機づけられ,メモリ操作の削減に特化しつつ,演算コストの低減といった低精度トレーニングの他の利点を享受する,動的スタッキング量子化(dsq)と呼ばれる新しい動的量子化戦略を提案する。
我々は,2つの翻訳タスク(訓練済み)と3つの分類タスク(微調整)について徹底的に研究する。
DSQは、デバイス上での学習で広く使われている16ビット固定点と比較して、算術演算を20.95\times$、DRAM演算を2.55\times$に減らしている。
関連論文リスト
- BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [55.61026644837707]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
これにより、1つのGPU上で0.5時間以内に70億重量のLLMをバイナライズし、良好な時間効率を示すことができる。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - Dual Grained Quantization: Efficient Fine-Grained Quantization for LLM [6.85331857224501]
LLM(Large Language Models)は、メモリ要件と計算能力に関する重要なハードウェア上の課題を提起する。
LLMには2つの主要な量子化スキームがある: 粗粒(textite.g.$ channel-wise)量子化と細粒(textite.g.$ group-wise)量子化である。
我々は、高速な推論速度を確保しつつ優れた性能を維持するLLMのための新しいA8W4量子化であるDual Grained Quantization (DGQ)を紹介する。
論文 参考訳(メタデータ) (2023-10-07T14:50:28Z) - Hadamard Domain Training with Integers for Class Incremental Quantized
Learning [1.4416751609100908]
継続的な学習は、リソース制約のあるエッジプラットフォームにとってコストを抑えることができる。
本稿では,整数行列の乗算のみを用いて,低精度の学習を可能にする手法を提案する。
行列乗算の入力を8ビットのアキュムレータで4ビットまで量子化しながら、0.5%未満の精度と3%の精度の劣化を実現する。
論文 参考訳(メタデータ) (2023-10-05T16:52:59Z) - OmniQuant: Omnidirectionally Calibrated Quantization for Large Language
Models [59.176603429408225]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
最近のPTQ法はメモリフットプリントの削減に有効であるが、極端に低ビットの量子化に対処できない。
多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文 参考訳(メタデータ) (2023-08-25T02:28:35Z) - DIFT: Dynamic Iterative Field Transforms for Memory Efficient Optical
Flow [44.57023882737517]
光フロー推定のための軽量低レイテンシ・メモリ効率モデルを提案する。
DIFTは、モバイル、XR、マイクロUAV、ロボティクス、カメラなどのエッジアプリケーションで実現可能である。
Snapdragon 8 Gen 1 HTPの効率的なモバイルAIアクセラレータ上で,最初のリアルタイムコストボリュームベースの光フローDLアーキテクチャを実演する。
論文 参考訳(メタデータ) (2023-06-09T06:10:59Z) - Dynamic Context Pruning for Efficient and Interpretable Autoregressive
Transformers [18.963110713461045]
本稿では,モデル表現性を保ちながら文脈情報を動的に生成する手法を提案する。
本手法では,文脈からどの非形式的トークンをドロップできるかを学習可能なメカニズムを用いて決定する。
我々の参照実装は、推論スループットの増大とメモリの節約を最大2ドルまで達成します。
論文 参考訳(メタデータ) (2023-05-25T07:39:41Z) - SmoothQuant: Accurate and Efficient Post-Training Quantization for Large
Language Models [18.251431556495184]
大規模言語モデル(LLM)は優れた性能を示すが、計算とメモリ集約性がある。
SmoothQuant, トレーニング不要, 精度保存, 汎用的なポストトレーニング量子化ソリューションを提案する。
最大1.56倍の高速化と2倍のメモリ削減を実現した。
論文 参考訳(メタデータ) (2022-11-18T18:59:33Z) - On-Device Training Under 256KB Memory [65.76525493087847]
本稿では,256KBのメモリでデバイス上でのトレーニングを可能にするアルゴリズム・システム協調設計フレームワークを提案する。
私たちのフレームワークは、小さなIoTデバイス上での視覚認識のデバイス上での転送学習のための、最初の実用的なソリューションです。
論文 参考訳(メタデータ) (2022-06-30T17:59:08Z) - Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。
Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。
ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文 参考訳(メタデータ) (2021-11-22T11:23:01Z) - Towards Efficient Post-training Quantization of Pre-trained Language
Models [85.68317334241287]
PLMのポストトレーニング量子化(PTQ)について検討し,モジュール単位の量子化誤差最小化(MREM)を提案する。
GLUEとSQuADベンチマークの実験により、提案したPTQソリューションはQATに近く動作するだけでなく、トレーニング時間、メモリオーバーヘッド、データ消費を大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2021-09-30T12:50:06Z) - ActNN: Reducing Training Memory Footprint via 2-Bit Activation
Compressed Training [68.63354877166756]
ActNNは、バック伝搬のためのランダムに量子化されたアクティベーションを格納するメモリ効率のトレーニングフレームワークである。
ActNNはアクティベーションのメモリフットプリントを12倍に削減し、6.6倍から14倍のバッチサイズでトレーニングを可能にする。
論文 参考訳(メタデータ) (2021-04-29T05:50:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。