論文の概要: FALQON: Accelerating LoRA Fine-tuning with Low-Bit Floating-Point Arithmetic
- arxiv url: http://arxiv.org/abs/2510.24061v1
- Date: Tue, 28 Oct 2025 04:44:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.789189
- Title: FALQON: Accelerating LoRA Fine-tuning with Low-Bit Floating-Point Arithmetic
- Title(参考訳): FALQON:低ビット浮動小数点算術によるLoRAファインチューニングの高速化
- Authors: Kanghyun Choi, Hyeyoon Lee, SunJong Park, Dain Kwon, Jinho Lee,
- Abstract要約: FP8のような低ビット浮動小数点(FP)フォーマットは、モデルトレーニングにおいて大きな加速とメモリ節約を提供する。
本稿では,ローランク適応(LoRA)計算経路から量子化オーバーヘッドを除去する新しいフレームワークであるFALQONを提案する。
FALQONは、同じレベルの精度で既存の量子化LoRA法よりも約3$times$のトレーニングスピードアップを達成する。
- 参考スコア(独自算出の注目度): 9.192731482247103
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Low-bit floating-point (FP) formats, such as FP8, provide significant acceleration and memory savings in model training thanks to native hardware support on modern GPUs and NPUs. However, we analyze that FP8 quantization offers speedup primarily for large-dimensional matrix multiplications, while inherent quantization overheads diminish speedup when applied to low-rank adaptation (LoRA), which uses small-dimensional matrices for efficient fine-tuning of large language models (LLMs). To address this limitation, we propose FALQON, a novel framework that eliminates the quantization overhead from separate LoRA computational paths by directly merging LoRA adapters into an FP8-quantized backbone during fine-tuning. Furthermore, we reformulate the forward and backward computations for merged adapters to significantly reduce quantization overhead, and introduce a row-wise proxy update mechanism that efficiently integrates substantial updates into the quantized backbone. Experimental evaluations demonstrate that FALQON achieves approximately a 3$\times$ training speedup over existing quantized LoRA methods with a similar level of accuracy, providing a practical solution for efficient large-scale model fine-tuning. Moreover, FALQON's end-to-end FP8 workflow removes the need for post-training quantization, facilitating efficient deployment. Code is available at https://github.com/iamkanghyunchoi/falqon.
- Abstract(参考訳): FP8のような低ビット浮動小数点(FP)フォーマットは、最新のGPUとNPUのネイティブハードウェアサポートのおかげで、モデルトレーニングにおいて大きな加速とメモリ節約を提供する。
しかし,FP8量子化は,大規模言語モデル (LLM) の高速な微調整に小次元行列を用いるローランク適応 (LoRA) に適用した場合に,主成分の量子化オーバーヘッドがスピードアップを減少させるのに対して,主に大次元行列乗算に対して速度アップを提供する。
この制限に対処するため、FALQONは、微調整中にLoRAアダプタを直接FP8量子化バックボーンにマージすることで、別のLoRA計算経路から量子化オーバーヘッドを除去する新しいフレームワークである。
さらに、結合アダプタの前方および後方の計算を改定し、量子化オーバーヘッドを大幅に削減し、量子化バックボーンに実質的な更新を効率的に統合する行ワイドプロキシ更新機構を導入する。
実験により、FALQON は既存の量子化 LoRA 法よりも約 3$\times$ のトレーニングスピードアップを同等の精度で達成し、より効率的な大規模モデル微調整のための実用的なソリューションを提供することが示された。
さらに、FALQONのエンドツーエンドのFP8ワークフローは、トレーニング後の量子化の必要性を排除し、効率的なデプロイメントを容易にする。
コードはhttps://github.com/iamkanghyunchoi/falqon.comで入手できる。
関連論文リスト
- The Power of Negative Zero: Datatype Customization for Quantized Large Language Models [5.503925076208333]
学習後の量子化は、大規模言語モデル(LLM)のメモリと計算要求を緩和する最もハードウェア効率の良い方法の1つである。
本稿では,基本FPデータ型を拡張して冗長ゼロリマッピング(RaZeR)を行う。
RaZeRは、負のゼロFPエンコーディングを、FP量子化エンコーディングを最大限活用し、数値分布をよりよく適合させるために、予め定義された特別な値のセットに再マップする。
論文 参考訳(メタデータ) (2025-01-06T22:40:40Z) - IntLoRA: Integral Low-rank Adaptation of Quantized Diffusion Models [68.55148272295916]
IntLoRAは、整数型低ランクパラメータを持つ量子化拡散モデルを適用し、チューニング中に推論効率を含める。
推論中、IntLoRA重みはPTQなしで直接量子化された下流重みを得るために、シームレスに事前訓練された重みにマージすることができる。
論文 参考訳(メタデータ) (2024-10-29T05:50:17Z) - LQ-LoRA: Low-rank Plus Quantized Matrix Decomposition for Efficient Language Model Finetuning [66.85589263870702]
提案手法では,事前学習した行列を高精度の低ランク成分とメモリ効率の量子化成分に分解するために反復アルゴリズムを用いる。
微調整されたRoBERTaとLLaMA-2の実験は、我々の低ランク+量子化行列分解法(LQ-LoRA)が強いQLoRAおよびGPTQ-LoRAベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2023-11-20T18:57:41Z) - ZeroQuant-FP: A Leap Forward in LLMs Post-Training W4A8 Quantization
Using Floating-Point Formats [25.543571445739936]
本研究では,大規模言語モデル(LLM)における浮動小数点量子化(FP)の実現可能性について検討する。
LLMでは、FP8のアクティベーションは整数(INT8)を一貫して上回り、性能エッジは10億を超えるパラメータを持つモデルではより顕著になる。
重量量子化では、FP4はINT4に匹敵する性能を示し、H100のようなFP対応ハードウェアへの展開を単純化している。
論文 参考訳(メタデータ) (2023-07-19T06:58:03Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。