論文の概要: HALO: Hadamard-Assisted Lower-Precision Optimization for LLMs
- arxiv url: http://arxiv.org/abs/2501.02625v2
- Date: Sat, 01 Feb 2025 18:58:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-04 16:04:11.753653
- Title: HALO: Hadamard-Assisted Lower-Precision Optimization for LLMs
- Title(参考訳): HALO:Adamard-Assisted Lower-Precision Optimization for LLMs
- Authors: Saleh Ashkboos, Mahdi Nikdan, Soroush Tabesh, Roberto L. Castro, Torsten Hoefler, Dan Alistarh,
- Abstract要約: 本稿では,トランスフォーマーのための新しい量子化学習手法HALOを提案する。
提案手法により, 前方・後方パスにおける行列乗算の精度が低くなることが保証される。
LLAMAファミリーモデルに適用すると、HALOは様々なタスクの微調整中にほぼ完全精度に等しい結果が得られる。
- 参考スコア(独自算出の注目度): 45.37278584462772
- License:
- Abstract: Quantized training of Large Language Models (LLMs) remains an open challenge, as maintaining accuracy while performing all matrix multiplications in low precision has proven difficult. This is particularly the case when fine-tuning pre-trained models, which can have large weight and activation outlier values that make lower-precision optimization difficult. To address this, we present HALO, a novel quantization-aware training approach for Transformers that enables accurate and efficient low-precision training by combining 1) strategic placement of Hadamard rotations in both forward and backward passes, which mitigate outliers, 2) high-performance kernel support, and 3) FSDP integration for low-precision communication. Our approach ensures that all large matrix multiplications during the forward and backward passes are executed in lower precision. Applied to LLAMA-family models, HALO achieves near-full-precision-equivalent results during fine-tuning on various tasks, while delivering up to 1.41x end-to-end speedup for full fine-tuning on RTX 4090 GPUs. HALO efficiently supports both standard and parameterefficient fine-tuning (PEFT). Our results demonstrate the first practical approach to fully quantized LLM fine-tuning that maintains accuracy in 8-bit precision, while delivering performance benefits. Code is available at \url{https://github.com/IST-DASLab/HALO}.
- Abstract(参考訳): 大規模言語モデル(LLMs)の量子化トレーニングは依然としてオープンな課題であり、低精度で全ての行列乗算を実行しながら精度を維持することは困難である。
これは特に、より高精度な最適化を困難にする大きな重み付けとアクティベーションアウトレーヤ値を持つ、微調整事前訓練されたモデルの場合である。
そこで本稿では,変換器の量子化を意識した新しい学習手法HALOを提案する。
1)アダマール回転の前方と後方の両方に戦略的な配置をし、アウトリーチを緩和する。
2)高性能カーネルサポート、及び
3)低精度通信のためのFSDP統合。
提案手法により, 前方・後方パスにおける行列乗算の精度が低くなることが保証される。
LLAMAファミリーモデルに適用されたHALOは、RTX 4090 GPUの完全な微調整のために、最大1.41倍のエンドツーエンドのスピードアップを提供するとともに、様々なタスクの微調整中にほぼ完全に精度の高い結果が得られる。
HALOは、標準およびパラメータ効率の微調整(PEFT)の両方を効率的にサポートする。
本研究は, 8ビット精度で精度を保ちつつ, 性能向上を図りつつ, 完全量子化LLMファインタニングへの最初の実践的アプローチを示すものである。
コードは \url{https://github.com/IST-DASLab/HALO} で入手できる。
関連論文リスト
- Progressive Mixed-Precision Decoding for Efficient LLM Inference [49.05448842542558]
我々は,デコーディングのメモリバウンドネスに対処するために,プログレッシブ・ミックス・プレシジョン・デコーディング(PMPD)を導入する。
PMPDはfp16モデルの行列ベクトル乗算において1.4$-$12.2$times$ Speedupを達成する。
我々の手法は、fp16モデルよりも3.8$-$8.0$times$、均一量子化アプローチよりも1.54$times$のスループット向上をもたらす。
論文 参考訳(メタデータ) (2024-10-17T11:46:33Z) - Efficient Arbitrary Precision Acceleration for Large Language Models on GPU Tensor Cores [3.6385567224218556]
大規模言語モデル(LLM)は広く応用されているが、効率的な推論では課題に直面している。
本稿では、並列計算を容易にし、対称量子化をサポートする新しいバイポーラ-INTデータフォーマットを提案する。
ビットレベルで分解・復元する任意の精度行列乗算方式を実装し,フレキシブルな精度を実現する。
論文 参考訳(メタデータ) (2024-09-26T14:17:58Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - DB-LLM: Accurate Dual-Binarization for Efficient LLMs [83.70686728471547]
大規模言語モデル(LLM)は自然言語処理の分野を著しく進歩させてきた。
既存の超低ビット量子化は、常に深刻な精度低下を引き起こす。
本稿では,LLM,すなわちDB-LLMのための新しいデュアルバイナライズ手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T09:04:30Z) - Zero-Shot Sharpness-Aware Quantization for Pre-trained Language Models [88.80146574509195]
量子化は、メモリオーバーヘッドを減らし、推論を加速するための有望なアプローチである。
種々のPLMのゼロショット量子化のための新しい量子化(ZSAQ)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-20T07:09:56Z) - Low-Precision Arithmetic for Fast Gaussian Processes [39.720581185327816]
低精度算術はニューラルネットワークの訓練に変換効果をもたらした。
本稿では,共役勾配の直交化,混合精度,プレコンディショニングを含む多面的アプローチを提案する。
提案手法は, 広範囲な設定において, 低精度での共役勾配の数値安定性と実用性能を著しく向上させる。
論文 参考訳(メタデータ) (2022-07-14T12:20:46Z) - HERO: Hessian-Enhanced Robust Optimization for Unifying and Improving
Generalization and Quantization Performance [43.478851400266926]
我々は、勾配に基づく学習プロセスを通じて、ヘッセン固有値を最小限に抑えるため、ヘッセンで強化された頑健な最適化手法HEROを提案する。
HEROは試験精度を最大3.8%向上させ、80%のトレーニングラベル摂動で最大30%高い精度を達成し、幅広い精度で最高のトレーニング後の量子化精度を実現する。
論文 参考訳(メタデータ) (2021-11-23T16:32:58Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。