論文の概要: QuEST: Stable Training of LLMs with 1-Bit Weights and Activations
- arxiv url: http://arxiv.org/abs/2502.05003v1
- Date: Fri, 07 Feb 2025 15:23:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:56:01.770755
- Title: QuEST: Stable Training of LLMs with 1-Bit Weights and Activations
- Title(参考訳): QuEST: 1ビットウェイトとアクティベーションを備えたLCMの安定トレーニング
- Authors: Andrei Panferov, Jiale Chen, Soroush Tabesh, Roberto L. Castro, Mahdi Nikdan, Dan Alistarh,
- Abstract要約: QuESTはスパースまたは量子化された言語モデルをトレーニングするための新しい方法である。
我々は,QuESTがハードウェア支援精度の全範囲にわたって,安定したスケーリング法則を導出することを示す。
我々はQuESTで生成されたモデルを効率的に実行可能であることを示すGPUカーネルサポートを提供する。
- 参考スコア(独自算出の注目度): 27.644652093888745
- License:
- Abstract: One approach to reducing the massive costs of large language models (LLMs) is the use of quantized or sparse representations for training or deployment. While post-training compression methods are very popular, the question of obtaining even more accurate compressed models by directly training over such representations, i.e., Quantization-Aware Training (QAT), is still open: for example, a recent study (arXiv:2411.04330v2) put the "optimal" bit-width at which models can be trained using QAT, while staying accuracy-competitive with standard FP16/BF16 precision, at 8-bits weights and activations. We advance this state-of-the-art via a new method called QuEST, which is Pareto-competitive with FP16, i.e., it provides better accuracy at lower model size, while training models with weights and activations in 4-bits or less. Moreover, QuEST allows stable training with 1-bit weights and activations. QuEST achieves this by improving two key aspects of QAT methods: (1) accurate and fast quantization of the (continuous) distributions of weights and activations via Hadamard normalization and MSE-optimal fitting; (2) a new trust gradient estimator based on the idea of explicitly minimizing the error between the noisy gradient computed over quantized states and the "true" (but unknown) full-precision gradient. Experiments on Llama-type architectures show that QuEST induces stable scaling laws across the entire range of hardware-supported precisions, and can be extended to sparse representations. We provide GPU kernel support showing that models produced by QuEST can be executed efficiently. Our code is available at https://github.com/IST-DASLab/QuEST.
- Abstract(参考訳): 大規模言語モデル(LLM)の大規模コスト削減のアプローチのひとつは、トレーニングやデプロイメントに量子化あるいはスパース表現を使用することである。
例えば、最近の研究(arXiv:2411.04330v2)では、モデルがQATを使用してトレーニングできる「最適な」ビット幅を、標準のFP16/BF16精度と8ビットの重量とアクティベーションで保持している。
我々は、この最先端技術をQuESTと呼ばれる新しい手法で前進させ、これはFP16とのパレート競合である、すなわち、4ビット以下の重みとアクティベーションを持つモデルをトレーニングしながら、より低いモデルサイズでの精度を向上させる。
さらに、QuESTは1ビットの重みとアクティベーションで安定したトレーニングを可能にする。
QAT法では,(1)アダマール正規化とMSE最適フィッティングによる重みとアクティベーションの(連続的な)分布の高精度かつ高速な量子化,(2)量子化状態上で計算された雑音勾配と「真の」(未知)完全精度勾配との誤差を明示的に最小化する考え方に基づく新しい信頼勾配推定器が実現されている。
Llama型アーキテクチャの実験は、QuESTがハードウェアサポートされた全範囲にわたる安定したスケーリング法則を誘導し、スパース表現に拡張可能であることを示している。
我々はQuESTで生成されたモデルを効率的に実行可能であることを示すGPUカーネルサポートを提供する。
私たちのコードはhttps://github.com/IST-DASLab/QuEST.comから入手可能です。
関連論文リスト
- GWQ: Gradient-Aware Weight Quantization for Large Language Models [63.89099994367657]
大規模言語モデル(LLM)は、複雑な言語タスクの解決における優れたパフォーマンスを示している。
LLMを低ビットにすることで、リソース制約のあるデバイス上で動作することが可能になり、しばしばパフォーマンスの低下につながる。
低ビット重み量子化のための最初の量子化手法である勾配対応重み量子化(GWQ)を提案する。
論文 参考訳(メタデータ) (2024-10-30T11:16:04Z) - EfficientQAT: Efficient Quantization-Aware Training for Large Language Models [50.525259103219256]
量子化対応トレーニング(QAT)は、低ビット表現によるメモリ消費を最小限の精度で削減することで、ソリューションを提供する。
より有効なQATアルゴリズムであるEfficient QAT(Efficient Quantization-Aware Training)を提案する。
効率的なQATは、全てのパラメータのブロックワイドトレーニング(Block-AP)と量子化パラメータのエンドツーエンドトレーニング(E2E-QP)の2つのフェーズを含む。
論文 参考訳(メタデータ) (2024-07-10T17:53:30Z) - Test-Time Model Adaptation with Only Forward Passes [68.11784295706995]
テストタイム適応は、トレーニング済みのモデルを、潜在的に分布シフトのある未確認テストサンプルに適応させるのに有効であることが証明されている。
テスト時間フォワード最適化適応法(FOA)を提案する。
FOAは量子化された8ビットのViTで動作し、32ビットのViTで勾配ベースのTENTより優れ、ImageNet-Cで最大24倍のメモリ削減を実現する。
論文 参考訳(メタデータ) (2024-04-02T05:34:33Z) - TEQ: Trainable Equivalent Transformation for Quantization of LLMs [1.0376648762140632]
TEQは、低精度量子化を生かしながら、モデル出力のFP32精度を保存する訓練可能な等価変換である。
トレーニングプロセスは軽量で、1Kステップしか必要とせず、オリジナルのモデルのトレーニング可能なパラメータの0.1%未満である。
論文 参考訳(メタデータ) (2023-10-17T02:42:34Z) - QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language
Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。
これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。
我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文 参考訳(メタデータ) (2023-10-13T17:15:05Z) - Norm Tweaking: High-performance Low-bit Quantization of Large Language
Models [21.855106896725598]
そこで本研究では,現在のPTQ手法のプラグインとして利用できるノルム調整手法を提案する。
本手法は,重量のみの量子化と重みとアクティベーションの連成量子化の両面で有意な改善を示す。
私たちのシンプルで効果的なアプローチは、現実世界のアプリケーションにとってより実用的です。
論文 参考訳(メタデータ) (2023-09-06T06:51:15Z) - Fixed-point quantization aware training for on-device keyword-spotting [4.4488246947396695]
本稿では,FXP畳み込みキーワードスポッティング(KWS)モデルを学習し,獲得するための新しい手法を提案する。
我々はこの方法論を2つの量子化学習(QAT)技術と組み合わせる。
我々は,KWSモデルの予測性能を損なうことなく,実行時間を68%削減できることを実証した。
論文 参考訳(メタデータ) (2023-03-04T01:06:16Z) - SQuAT: Sharpness- and Quantization-Aware Training for BERT [43.049102196902844]
シャープネスと量子化アウェアトレーニング(SQuAT)を提案する。
提案手法は,2,3,4ビット条件下で,最先端の量子化BERTモデルよりも1%向上する。
また, シャープネスの測定実験により, 他の量子化法と比較して, より平坦な最小値が得られることが示唆された。
論文 参考訳(メタデータ) (2022-10-13T16:52:19Z) - CrAM: A Compression-Aware Minimizer [103.29159003723815]
本稿では、CrAMと呼ばれる新しい圧縮対応最小化器を提案し、最適化ステップを原則的に修正する。
CrAMは、標準のSGD/アダムベースベースラインよりも精度が高い密度のモデルを生成するが、重量計算では安定である。
CrAMは、転送学習のためにうまく機能するスパースモデルを生成することができ、GPUハードウェアでサポートされている半構造化の2:4プルーニングパターンでも機能する。
論文 参考訳(メタデータ) (2022-07-28T16:13:28Z) - Optimal Clipping and Magnitude-aware Differentiation for Improved
Quantization-aware Training [8.106641866299377]
現在のプラクティスは、クリッピングしきい値スカラーを設定するためにスカラーに依存しており、最適であることを示すことはできない。
最適クリッピングスカラーを決定するアルゴリズムであるOptimally Clippeds And Vectors (OCTAV)を提案する。
OCTAVは、量子化認識トレーニング(QAT)ルーチンのイテレーション毎に、テンソル毎に、フライ時に最適なクリッピングスカラーを見つける。
論文 参考訳(メタデータ) (2022-06-13T22:15:21Z) - Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。
標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。
本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文 参考訳(メタデータ) (2020-04-15T20:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。