論文の概要: HALO: Hadamard-Assisted Lossless Optimization for Efficient Low-Precision LLM Training and Fine-Tuning
- arxiv url: http://arxiv.org/abs/2501.02625v1
- Date: Sun, 05 Jan 2025 18:41:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:06:37.846953
- Title: HALO: Hadamard-Assisted Lossless Optimization for Efficient Low-Precision LLM Training and Fine-Tuning
- Title(参考訳): HALO:高効率低精度LDMトレーニングとファインチューニングのためのアダマール支援ロスレス最適化
- Authors: Saleh Ashkboos, Mahdi Nikdan, Soroush Tabesh, Roberto L. Castro, Torsten Hoefler, Dan Alistarh,
- Abstract要約: 本稿では,トランスフォーマーのための新しい量子化学習手法HALOを提案する。
我々は,アダマール回転を前方と後方の両方で組み合わせることで,低精度計算における外周を緩和する。
提案手法は,高効率カーネル実装を基盤として,PEFT法とPEFT法の両方をサポートする。
- 参考スコア(独自算出の注目度): 45.37278584462772
- License:
- Abstract: Quantized training of Large Language Models (LLMs) remains an open challenge, as maintaining accuracy while performing all matrix multiplications in low precision has proven difficult. This is particularly the case when fine-tuning pre-trained models, which often already have large weight and activation outlier values that render quantized optimization difficult. We present HALO, a novel quantization-aware training approach for Transformers that enables accurate and efficient low-precision training by combining 1) strategic placement of Hadamard rotations in both forward and backward passes, to mitigate outliers during the low-precision computation, 2) FSDP integration for low-precision communication, and 3) high-performance kernel support. Our approach ensures that all large matrix multiplications during the forward and backward passes are executed in lower precision. Applied to LLAMA-family models, HALO achieves near-full-precision-equivalent results during fine-tuning on various tasks, while delivering up to 1.31x end-to-end speedup for full fine-tuning on RTX 4090 GPUs. Our method supports both standard and parameter-efficient fine-tuning (PEFT) methods, both backed by efficient kernel implementations. Our results demonstrate the first practical approach to fully quantized LLM fine-tuning that maintains accuracy in FP8 precision, while delivering performance benefits.
- Abstract(参考訳): 大規模言語モデル(LLMs)の量子化トレーニングは依然としてオープンな課題であり、低精度で全ての行列乗算を実行しながら精度を維持することは困難である。
これは特に、量子化された最適化を困難にする大きな重み付けとアクティベーションの外れ値を持つ、微調整事前訓練されたモデルの場合である。
本稿では,変換器の量子化を意識した新しい学習手法HALOを提案する。
1)低精度計算において,アダマール回転を前方・後方双方に戦略的に配置し,外乱の軽減を図る。
2)低精度通信のためのFSDP統合
3)高性能カーネルサポート。
提案手法により, 前方・後方パスにおける行列乗算の精度が低くなることが保証される。
LLAMAファミリーモデルに適用されたHALOは、RTX 4090 GPUの完全な微調整のために最大1.31倍のエンドツーエンドのスピードアップを提供するとともに、様々なタスクの微調整中にほぼ完全に精度の高い結果が得られる。
提案手法は,高効率カーネル実装を基盤として,PEFT法とPEFT法の両方をサポートする。
本研究は,FP8の精度を維持しつつ,性能向上を図りながら,FP8の精度を維持した完全量子化LDMファインタニングへの最初の実践的アプローチを示すものである。
関連論文リスト
- QuZO: Quantized Zeroth-Order Fine-Tuning for Large Language Models [27.730213115659986]
言語モデル(LLM)はしばしば、推論におけるメモリコストとレイテンシを低減するために、精度を下げるために量子化される。
従来の微調整手法ではバックプロパゲーションが必要であり、低精度設定ではエラーが発生しやすい。
本稿では,低精度フォワードパスを用いた微調整LDMのための量子ゼロオーダー(Quantized Zeroth-Order)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T22:20:31Z) - The Power of Negative Zero: Datatype Customization for Quantized Large Language Models [5.503925076208333]
学習後の量子化は、大規模言語モデル(LLM)のメモリと計算要求を緩和する最もハードウェア効率の良い方法の1つである。
本稿では,基本FPデータ型を拡張して冗長ゼロリマッピング(RaZeR)を行う。
RaZeRは、負のゼロFPエンコーディングを、FP量子化エンコーディングを最大限活用し、数値分布をよりよく適合させるために、予め定義された特別な値のセットに再マップする。
論文 参考訳(メタデータ) (2025-01-06T22:40:40Z) - Progressive Mixed-Precision Decoding for Efficient LLM Inference [49.05448842542558]
我々は,デコーディングのメモリバウンドネスに対処するために,プログレッシブ・ミックス・プレシジョン・デコーディング(PMPD)を導入する。
PMPDはfp16モデルの行列ベクトル乗算において1.4$-$12.2$times$ Speedupを達成する。
我々の手法は、fp16モデルよりも3.8$-$8.0$times$、均一量子化アプローチよりも1.54$times$のスループット向上をもたらす。
論文 参考訳(メタデータ) (2024-10-17T11:46:33Z) - Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [66.27334633749734]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。
Zeroth-order (ZOZO) 最適化手法はメモリ効率の代替手段を提供する。
本稿では,SubZeroがファインチューニングを強化し,通常のZOZO手法と比較して高速な結果が得られることを示す。
論文 参考訳(メタデータ) (2024-10-11T17:01:43Z) - Efficient Arbitrary Precision Acceleration for Large Language Models on GPU Tensor Cores [3.6385567224218556]
大規模言語モデル(LLM)は広く応用されているが、効率的な推論では課題に直面している。
本稿では、並列計算を容易にし、対称量子化をサポートする新しいバイポーラ-INTデータフォーマットを提案する。
ビットレベルで分解・復元する任意の精度行列乗算方式を実装し,フレキシブルな精度を実現する。
論文 参考訳(メタデータ) (2024-09-26T14:17:58Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - Zero-Shot Sharpness-Aware Quantization for Pre-trained Language Models [88.80146574509195]
量子化は、メモリオーバーヘッドを減らし、推論を加速するための有望なアプローチである。
種々のPLMのゼロショット量子化のための新しい量子化(ZSAQ)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-20T07:09:56Z) - Low-Precision Arithmetic for Fast Gaussian Processes [39.720581185327816]
低精度算術はニューラルネットワークの訓練に変換効果をもたらした。
本稿では,共役勾配の直交化,混合精度,プレコンディショニングを含む多面的アプローチを提案する。
提案手法は, 広範囲な設定において, 低精度での共役勾配の数値安定性と実用性能を著しく向上させる。
論文 参考訳(メタデータ) (2022-07-14T12:20:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。