Fugu-MT 論文翻訳(概要): Train Small, Infer Large: Memory-Efficient LoRA Training for Large Language Models

論文の概要: Train Small, Infer Large: Memory-Efficient LoRA Training for Large Language Models

arxiv url: http://arxiv.org/abs/2502.13533v1
Date: Wed, 19 Feb 2025 08:39:15 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-20 20:12:09.898129
Title: Train Small, Infer Large: Memory-Efficient LoRA Training for Large Language Models
Title（参考訳）: 大規模言語モデルのためのメモリ効率のよい LoRA トレーニング
Authors: Jun Zhang, Jue Wang, Huan Li, Lidan Shou, Ke Chen, Yang You, Guiming Xie, Xuejian Gong, Kunlong Zhou,
Abstract要約: Low-Rank Adaption (LoRA)は、大規模言語モデルに対してコスト効率の良い微調整ソリューションを提供する。しかし、LoRAのメモリフットプリントは、主にオリジナルのモデルパラメータに支配されている。メモリ効率のよいLoRA学習手法であるLoRAMを提案する。
参考スコア（独自算出の注目度）: 23.442612142677504
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have significantly advanced natural language processing with exceptional task generalization capabilities. Low-Rank Adaption (LoRA) offers a cost-effective fine-tuning solution, freezing the original model parameters and training only lightweight, low-rank adapter matrices. However, the memory footprint of LoRA is largely dominated by the original model parameters. To mitigate this, we propose LoRAM, a memory-efficient LoRA training scheme founded on the intuition that many neurons in over-parameterized LLMs have low training utility but are essential for inference. LoRAM presents a unique twist: it trains on a pruned (small) model to obtain pruned low-rank matrices, which are then recovered and utilized with the original (large) model for inference. Additionally, minimal-cost continual pre-training, performed by the model publishers in advance, aligns the knowledge discrepancy between pruned and original models. Our extensive experiments demonstrate the efficacy of LoRAM across various pruning strategies and downstream tasks. For a model with 70 billion parameters, LoRAM enables training on a GPU with only 20G HBM, replacing an A100-80G GPU for LoRA training and 15 GPUs for full fine-tuning. Specifically, QLoRAM implemented by structured pruning combined with 4-bit quantization, for LLaMA-3.1-70B (LLaMA-2-70B), reduces the parameter storage cost that dominates the memory usage in low-rank matrix training by 15.81$\times$ (16.95$\times$), while achieving dominant performance gains over both the original LLaMA-3.1-70B (LLaMA-2-70B) and LoRA-trained LLaMA-3.1-8B (LLaMA-2-13B).
Abstract（参考訳）: 大規模言語モデル(LLM)は、例外的なタスク一般化機能を備えた、かなり高度な自然言語処理を持つ。 Low-Rank Adaption (LoRA)はコスト効率の良い微調整ソリューションを提供し、オリジナルのモデルパラメータを凍結し、軽量で低ランクのアダプタ行列のみをトレーニングする。しかし、LoRAのメモリフットプリントは、主にオリジナルのモデルパラメータに支配されている。メモリ効率のよい LoRA トレーニング手法である LoRAM を提案する。 LoRAMはプルーニングされた(小さい)モデルで訓練し、プルーニングされた(小さい)低ランクの行列を取得し、元の(大きな)モデルで推論に利用した。さらに、モデルパブリッシャが事前に実行する最小限のコストの継続事前学習は、刈り取られたモデルとオリジナルのモデルとの知識の相違を整合させる。各種プルーニング戦略および下流タスクにおけるLoRAMの有効性を実証した。 70億のパラメータを持つモデルでは、LoRAMは20G HBMのGPU上でのトレーニングを可能にし、LoRAトレーニング用のA100-80G GPUとフル微調整用の15GPUを置き換える。具体的には、構造化プルーニングと4ビット量子化を組み合わせたQLoRAMは、LLaMA-3.1-70B(LLaMA-2-70B)のために実装され、低ランク行列トレーニングにおけるメモリ使用量を支配するパラメータ記憶コストを15.81$\times$ (16.95$\times$)削減し、オリジナルのLLaMA-3.1-70B(LLaMA-2-70B)とLoRAで訓練されたLLaMA-3.1-8B(LLaMA-2-13B)の双方よりも優れたパフォーマンスを達成する。

関連論文リスト

HaLoRA: Hardware-aware Low-Rank Adaptation for Large Language Models Based on Hybrid Compute-in-Memory Architecture [9.451914483640605]
低ランク適応(LoRA)は、下流タスクに大規模言語モデル(LLM)を適用するためのパラメータ効率の高い微調整法である。 RRAM固有のノイズによる性能劣化に対処するため,ハードウェア対応低ランク適応法(HaLoRA)を考案した。 LLaMA 3.2 1Bと3Bを微調整した実験では、HaLoRAが複数の推論タスクにまたがって有効であることを示し、平均スコアを最大22.7改善した。
論文参考訳（メタデータ） (2025-02-27T04:20:47Z)
Dynamic Low-Rank Sparse Adaptation for Large Language Models [54.1231638555233]
Low-rank Sparse Adaptation (LoSA)は、低ランク適応をsparse LLM sparsityにシームレスに統合する新しい手法である。 LoSAは、微調整中に対応するスパース重みに基づいてLoRA結果を動的に分散する。 LoSAは、追加の推論負荷を伴わずに、スパースLSMの有効性を数時間で効果的に向上させることができる。
論文参考訳（メタデータ） (2025-02-20T18:37:32Z)
CoLA: Compute-Efficient Pre-Training of LLMs via Low-Rank Activation [17.807249890437767]
我々は,CoLAとそのメモリ効率向上実装であるCoLA-Mを紹介する。モデルアクティベーションにおいて広く観測される低ランク構造を利用して、モデルサイズを削減し、モデルのキャパシティを向上し、トレーニング効率を向上させる。 6000万から70億のパラメータを持つLLaMAモデルの実験では、CoLAはコンピューティングコストを$bf 2pmbtimes$で削減し、フルランクレベルのパフォーマンスを維持しながら、トレーニングスループットを$bf 1.86pmbtimes$で改善している。
論文参考訳（メタデータ） (2025-02-16T01:05:16Z)
MixLoRA: Enhancing Large Language Models Fine-Tuning with LoRA-based Mixture of Experts [3.6301530893494127]
MixLoRAは、リソース効率の良いスパースMoEモデルを構築するためのアプローチである。評価の結果,MixLoRAはマルチタスク学習シナリオにおける最先端PEFT法と比較して約9%精度が向上していることがわかった。
論文参考訳（メタデータ） (2024-04-22T02:15:52Z)
LISA: Layerwise Importance Sampling for Memory-Efficient Large Language Model Fine-Tuning [31.088229461632206]
大規模言語モデル(LLM)は大規模トレーニングにおいて重要な障害となっている。ローランド適応(LoRA)はこの問題を軽減するために提案されている。微調整作業におけるLoRAの層状特性について検討し、予期せぬが一貫した重みノルムの歪さを観察する。私たちはLayerwise Importance Sampled AdamW (LISA)と名付けた。
論文参考訳（メタデータ） (2024-03-26T17:55:02Z)
GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection [133.45193150403537]
LLM(Large Language Models)のトレーニングは、重み付けやGPU状態の増大によって、メモリ上の重大な問題が発生する。本研究では,メモリ効率のトレーニング戦略としてグラディエント・ローランド・プロジェクション(GaLore)を提案する。私たちの8ビットのGaLoreは、BF16ベースラインと比較して、メモリを82.5%、トレーニング総メモリを63.3%削減します。
論文参考訳（メタデータ） (2024-03-06T07:29:57Z)
ResLoRA: Identity Residual Mapping in Low-Rank Adaption [96.59370314485074]
低ランク適応(LoRA)の改良フレームワークであるResLoRAを提案する。提案手法は,LoRAと比較してトレーニング可能なパラメータや推論コストを必要とせずに,より少ないトレーニングステップでより良い結果を得ることができる。 NLG,NLU,テキスト・ツー・イメージタスクの実験により,本手法の有効性が示された。
論文参考訳（メタデータ） (2024-02-28T04:33:20Z)
BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。 LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文参考訳（メタデータ） (2024-02-06T09:26:34Z)
LoRAPrune: Structured Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [56.88751562302793]
低ランク適応 (LoRA) が大型言語モデル (LLM) に登場した。 LoRAPruneは、高度にメモリ効率の良い正確な構造化プルーンドモデルを提供する新しいフレームワークである。 LoRAPruneはWikiText2では4.81、TBでは3.46、メモリ使用量は52.6%減少している。
論文参考訳（メタデータ） (2023-05-28T15:15:48Z)
LoRA: Low-Rank Adaptation of Large Language Models [71.75808607987281]
Low-Rank Adaptation (LoRA)はトレーニング済みモデルの重みを凍結し、トレーニング可能な階数分解をTransformerアーキテクチャの各層に注入する。 GPT-3では、LoRAはトレーニング可能なパラメータの数を1万倍に減らし、計算ハードウェアの要求をフル微調整の3倍に削減できる。
論文参考訳（メタデータ） (2021-06-17T17:37:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。