論文の概要: LoRAFusion: Efficient LoRA Fine-Tuning for LLMs
- arxiv url: http://arxiv.org/abs/2510.00206v1
- Date: Tue, 30 Sep 2025 19:26:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.226535
- Title: LoRAFusion: Efficient LoRA Fine-Tuning for LLMs
- Title(参考訳): LoRAFusion: LLMのための効率的なLoRAファインチューニング
- Authors: Zhanda Zhu, Qidong Su, Yaoyao Ding, Kevin Song, Shang Wang, Gennady Pekhimenko,
- Abstract要約: Low-Rank Adaptation (LoRA) はLarge Language Models (LLM) のためのPEFT (Efficient Fine-Tuning) メソッドの先駆けとなった。
LLMのための効率的なLoRA微調整システムであるLoRAFusionを紹介する。
LoRAFusionはMegatron-LMと比較して最大1.96times$(平均1.47times$)エンドツーエンドのスピードアップを達成し、mLoRAよりも最大1.46times$(平均1.29times$)改善する。
- 参考スコア(独自算出の注目度): 7.13923757932177
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Low-Rank Adaptation (LoRA) has become the leading Parameter-Efficient Fine-Tuning (PEFT) method for Large Language Models (LLMs), as it significantly reduces GPU memory usage while maintaining competitive fine-tuned model quality on downstream tasks. Despite these benefits, we identify two key inefficiencies in existing LoRA fine-tuning systems. First, they incur substantial runtime overhead due to redundant memory accesses on large activation tensors. Second, they miss the opportunity to concurrently fine-tune multiple independent LoRA adapters that share the same base model on the same set of GPUs. This leads to missed performance gains such as reduced pipeline bubbles, better communication overlap, and improved GPU load balance. To address these issues, we introduce LoRAFusion, an efficient LoRA fine-tuning system for LLMs. At the kernel level, we propose a graph-splitting method that fuses memory-bound operations. This design eliminates unnecessary memory accesses and preserves the performance of compute-bound GEMMs without incurring the cost of recomputation or synchronization. At the scheduling level, LoRAFusion introduces an adaptive batching algorithm for multi-job fine-tuning. It first splits LoRA adapters into groups to intentionally stagger batch execution across jobs, and then solves a bin-packing problem within each group to generate balanced, dependency-aware microbatches. LoRAFusion achieves up to $1.96\times$ ($1.47\times$ on average) end-to-end speedup compared to Megatron-LM, and up to $1.46\times$ ($1.29\times$ on average) improvement over mLoRA, the state-of-the-art multi-LoRA fine-tuning system. Our fused kernel achieves up to $1.39\times$ ($1.27\times$ on average) kernel performance improvement and can directly serve as a plug-and-play replacement in existing LoRA systems. We open-source LoRAFusion at https://github.com/CentML/lorafusion.
- Abstract(参考訳): Low-Rank Adaptation (LoRA) は大規模言語モデル (LLM) におけるパラメータ効率の良い細調整 (PEFT) 手法の先駆けとなった。
これらの利点にもかかわらず、既存のLoRAファインチューニングシステムにおける2つの重要な非効率性を特定する。
まず、大きなアクティベーションテンソル上の冗長なメモリアクセスのために、実行時にかなりのオーバーヘッドが発生する。
第二に、同じGPUセット上で同じベースモデルを共有する複数の独立したLoRAアダプタを同時に微調整する機会を逃している。
これにより、パイプラインバブルの削減、通信のオーバーラップの改善、GPUロードバランシングの改善など、パフォーマンスの向上が損なわれる。
これらの問題に対処するために, LLM のための効率的な LoRA 微調整システムである LoRAFusion を導入する。
カーネルレベルでは,メモリバウンド演算を融合するグラフ分割法を提案する。
この設計は不要なメモリアクセスを排除し、再計算や同期のコストを発生させることなく、計算バウンドGEMMの性能を維持する。
スケジューリングレベルでは、LoRAFusionはマルチジョブファインチューニングのための適応バッチアルゴリズムを導入している。
最初はLoRAアダプタをグループに分割して、ジョブ間で意図的にバッチ実行をステージングし、その後、各グループ内のビンパッケージ問題を解決して、バランスの取れた依存性を意識したマイクロバッチを生成する。
LoRAFusionはMegatron-LMと比較して最大で1.96\times$$1.47\times$、最先端のマルチLoRA微調整システムであるmLoRAよりも最大で1.46\times$$1.29\times$である。
我々の融合カーネルは、最大で1.39\times$ (1.27\times$ on average) のカーネル性能向上を実現し、既存のLoRAシステムでは直接プラグアンドプレイの代替として機能する。
LoRAFusionはhttps://github.com/CentML/lorafusion.comでオープンソース化しました。
関連論文リスト
- Faster Than SVD, Smarter Than SGD: The OPLoRA Alternating Update [50.36542772932594]
Low-Rank Adaptation (LoRA) は、凍結重量の上の低ランク更新を学習することで、大きなモデルを微調整する。
ローランクプロジェクションによる完全なトレーニング(SVDLoRA)とLoRAファインチューニングの間にはまだギャップがあり、LoRAのステップをさらに改善できることを示している。
論文 参考訳(メタデータ) (2025-09-24T10:32:50Z) - Dynamic Low-Rank Sparse Adaptation for Large Language Models [54.1231638555233]
Low-rank Sparse Adaptation (LoSA)は、低ランク適応をsparse LLM sparsityにシームレスに統合する新しい手法である。
LoSAは、微調整中に対応するスパース重みに基づいてLoRA結果を動的に分散する。
LoSAは、追加の推論負荷を伴わずに、スパースLSMの有効性を数時間で効果的に向上させることができる。
論文 参考訳(メタデータ) (2025-02-20T18:37:32Z) - LoRA Done RITE: Robust Invariant Transformation Equilibration for LoRA Optimization [78.93425154518705]
低ランク適応 (LoRA) は、メモリ要求を低減し、LLMのパラメータ効率の高い微調整法である。
本稿では,LoRA最適化のための適応行列プレコンディショニング手法であるLoRA-RITEを紹介する。
論文 参考訳(メタデータ) (2024-10-27T22:57:12Z) - CoRA: Optimizing Low-Rank Adaptation with Common Subspace of Large Language Models [7.108651381160281]
Low-Rank Adaptation (LoRA) 戦略は、微調整された大型モデルにおける効率と性能のバランスをとる。
我々は、共有知識を活用してLoRAトレーニングを最適化するtextbfCoRAを提案する。
実験の結果,最初のアプローチは,パラメータの半減よりも効率が良く,元のLoRAファインチューニングと同じ効果が得られることがわかった。
論文 参考訳(メタデータ) (2024-08-31T12:48:27Z) - LoRA+: Efficient Low Rank Adaptation of Large Models [13.074320303580361]
低ランク適応(LoRA)は,大幅モデル(埋め込み次元)の最適下微細化につながることを示す。
そこで, このLoRAの準最適性は, 適応行列 A と B の学習率を良好に設定することで, 簡単に補正可能であることを示す。
我々の実験では、LoRA$+$は、LoRAと同じ計算コストで性能(1-2$%の改善)と微調整速度($sim$2X SpeedUpまで)を改善する。
論文 参考訳(メタデータ) (2024-02-19T18:33:49Z) - Chain of LoRA: Efficient Fine-tuning of Language Models via Residual
Learning [31.036465632204663]
本稿では,Frank-Wolfeアルゴリズムにインスパイアされた反復最適化フレームワークであるLoRAのChainを紹介する。
計算コストやメモリコストを増大させることなく,COLA が LoRA を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-01-08T14:26:49Z) - mLoRA: Fine-Tuning LoRA Adapters via Highly-Efficient Pipeline Parallelism in Multiple GPUs [5.735411578779657]
Low-Rank Adaptation (LoRA) はパラメータ効率のよい微調整法で、ベースLSMを複数の下流タスクに適応させるのに使われる。
LoRAプラットフォームにより、開発者は複数のモデルを微調整し、さまざまなドメイン固有のアプリケーションを同時に開発できる。
既存のモデル並列化スキームは、複数のLoRAタスクをトレーニングする際に、高い通信オーバーヘッドと非効率なGPU利用に悩まされる。
論文 参考訳(メタデータ) (2023-12-05T05:38:38Z) - S-LoRA: Serving Thousands of Concurrent LoRA Adapters [59.490751234925206]
パラメータ効率のよい微調整法であるLoRA(Lo-Rank Adaptation)は、ベースモデルを複数のタスクに適応させるためによく用いられる。
本稿では,多数のLoRAアダプタのスケーラブルな提供を目的としたシステムであるS-LoRAを提案する。
論文 参考訳(メタデータ) (2023-11-06T17:26:17Z) - LoRAPrune: Structured Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [56.88751562302793]
低ランク適応 (LoRA) が大型言語モデル (LLM) に登場した。
LoRAPruneは、高度にメモリ効率の良い正確な構造化プルーンドモデルを提供する新しいフレームワークである。
LoRAPruneはWikiText2では4.81、TBでは3.46、メモリ使用量は52.6%減少している。
論文 参考訳(メタデータ) (2023-05-28T15:15:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。