論文の概要: RoLoRA: Fine-tuning Rotated Outlier-free LLMs for Effective Weight-Activation Quantization
- arxiv url: http://arxiv.org/abs/2407.08044v2
- Date: Thu, 26 Sep 2024 23:47:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 22:29:09.007985
- Title: RoLoRA: Fine-tuning Rotated Outlier-free LLMs for Effective Weight-Activation Quantization
- Title(参考訳): RoLoRA: 有効重量活性化量子化のための微調整回転型外周フリーLCM
- Authors: Xijie Huang, Zechun Liu, Shih-Yang Liu, Kwang-Ting Cheng,
- Abstract要約: 有効重量活性化量子化のための最初のLoRA方式であるRoLoRAを提案する。
我々は,LLaMA2-7B/13B,LLaMA3-8Bモデルにおけるロロラの評価を行い,最大29.5%の精度で4ビットの重量活性化量子化LLaMA2-13Bを実現した。
- 参考スコア(独自算出の注目度): 38.23587031169402
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Low-Rank Adaptation (LoRA), as a representative Parameter-Efficient Fine-Tuning (PEFT)method, significantly enhances the training efficiency by updating only a small portion of the weights in Large Language Models (LLMs). Recently, weight-only quantization techniques have also been applied to LoRA methods to reduce the memory footprint of fine-tuning. However, applying weight-activation quantization to the LoRA pipeline is under-explored, and we observe substantial performance degradation primarily due to the presence of activation outliers. In this work, we propose RoLoRA, the first LoRA-based scheme for effective weight-activation quantization. RoLoRA utilizes rotation for outlier elimination and proposes rotation-aware fine-tuning to preserve the outlier-free characteristics in rotated LLMs. Experimental results show RoLoRA consistently improves low-bit LoRA convergence and post-training quantization robustness in weight-activation settings. We evaluate RoLoRA across LLaMA2-7B/13B, LLaMA3-8B models, achieving up to 29.5% absolute accuracy gain of 4-bit weight-activation quantized LLaMA2- 13B on commonsense reasoning tasks compared to LoRA baseline. We further demonstrate its effectiveness on Large Multimodal Models (LLaVA-1.5-7B). Codes are available at https://github.com/HuangOwen/RoLoRA
- Abstract(参考訳): Low-Rank Adaptation (LoRA) はパラメータ効率の良いファインチューニング(PEFT)手法であり、Large Language Models (LLMs) におけるウェイトの一部を更新することでトレーニング効率を大幅に向上させる。
近年,微調整のメモリフットプリントを低減するため,LoRA法にも重みのみの量子化技術が適用されている。
しかし,LoRAパイプラインへの重み付け活性化量子化の適用は未検討であり,活性化オフレイアの存在が主な原因で,大幅な性能劣化が観測された。
そこで本研究では,LoRAをベースとした効果的な量化量子化手法であるRoLoRAを提案する。
RoLoRAは、外乱除去に回転を利用するとともに、回転LLMにおける外乱のない特性を維持するために回転対応微調整を提案する。
実験結果から,RoLoRAは低ビットのLoRA収束と,重量活性化条件下での学習後の量子化ロバスト性を改善した。
我々は,LLaMA2-7B/13B,LLaMA3-8Bモデルにおけるロロラの評価を行い,LLaMA2-13Bの絶対精度を最大29.5%向上させた。
さらに,Large Multimodal Models (LLaVA-1.5-7B) の有効性を示す。
コードはhttps://github.com/HuangOwen/RoLoRAで公開されている。
関連論文リスト
- LoRA Done RITE: Robust Invariant Transformation Equilibration for LoRA Optimization [78.93425154518705]
低ランク適応 (LoRA) は、メモリ要求を低減し、LLMのパラメータ効率の高い微調整法である。
本稿では,LoRA最適化のための適応行列プレコンディショニング手法であるLoRA-RITEを紹介する。
論文 参考訳(メタデータ) (2024-10-27T22:57:12Z) - Randomized Asymmetric Chain of LoRA: The First Meaningful Theoretical Framework for Low-Rank Adaptation [58.288682735160585]
Low-Rank Adaptation (LoRA) は、ファインチューニングモデルの一般的なテクニックである。
LoRAは、フルパラメータの微調整と比較すると、しばしば実行されます。
本稿では,LoRA手法の適応率を厳密に分析するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-10T18:51:53Z) - Bone: Block-Affine Adaptation of Large Language Models [0.0]
Low-Rank Adaptation (LoRA)は、オリジナルの重量を凍結し、低ランクの行列のみを訓練することで、優れたトレーニング結果を得た。
本稿では,Block-Affine Adaptation (Bone)と呼ばれる,LoRAとは異なる新しいPEFT手法を提案する。
Boneはメモリ使用量を大幅に削減し、高速な計算を実現する。
論文 参考訳(メタデータ) (2024-09-19T10:26:42Z) - ResLoRA: Identity Residual Mapping in Low-Rank Adaption [96.59370314485074]
低ランク適応(LoRA)の改良フレームワークであるResLoRAを提案する。
提案手法は,LoRAと比較してトレーニング可能なパラメータや推論コストを必要とせずに,より少ないトレーニングステップでより良い結果を得ることができる。
NLG,NLU,テキスト・ツー・イメージタスクの実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-02-28T04:33:20Z) - DoRA: Weight-Decomposed Low-Rank Adaptation [57.68678247436207]
本稿では,FTとLoRAの相違点を明らかにするために,新しい重み分解解析法を提案する。
本研究は、FTの学習能力に類似することを目的として、重量分解低ランク適応(DoRA)を提案する。
DoRAは、事前訓練された重量を、微調整のための大きさと方向の2つの構成要素に分解する。
論文 参考訳(メタデータ) (2024-02-14T17:59:34Z) - LoRA-drop: Efficient LoRA Parameter Pruning based on Output Evaluation [27.123271324468657]
Low-Rank Adaptation (LoRA)は、現在最も一般的に使われている言語である。
効率的な微細チューニング法(PEFT)。
各レイヤの補助パラメータを導入し、限られたコンピューティングリソースの下で事前訓練されたモデルを微調整する。
しかし、より大きなモデルにスケールアップする際には、依然としてリソース消費の課題に直面している。
論文 参考訳(メタデータ) (2024-02-12T15:34:56Z) - LoRA-FA: Memory-efficient Low-rank Adaptation for Large Language Models
Fine-tuning [19.08716369943138]
本稿では,性能劣化やコストのかかる再計算を伴わずに,メモリ効率のよい微調整法であるLoRA-FAを提案する。
この結果から,LORA-FAは全パラメータの微調整やLORAと比較して,各タスクにまたがる精密調整の精度が常に高いことがわかった。
論文 参考訳(メタデータ) (2023-08-07T05:12:27Z) - LoRAPrune: Structured Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [56.88751562302793]
低ランク適応 (LoRA) が大型言語モデル (LLM) に登場した。
LoRAPruneは、高度にメモリ効率の良い正確な構造化プルーンドモデルを提供する新しいフレームワークである。
LoRAPruneはWikiText2では4.81、TBでは3.46、メモリ使用量は52.6%減少している。
論文 参考訳(メタデータ) (2023-05-28T15:15:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。