Fugu-MT 論文翻訳(概要): PeriodicLoRA: Breaking the Low-Rank Bottleneck in LoRA Optimization

論文の概要: PeriodicLoRA: Breaking the Low-Rank Bottleneck in LoRA Optimization

arxiv url: http://arxiv.org/abs/2402.16141v1
Date: Sun, 25 Feb 2024 16:43:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-27 15:13:33.177589
Title: PeriodicLoRA: Breaking the Low-Rank Bottleneck in LoRA Optimization
Title（参考訳）: PeriodicLoRA: LoRA最適化における低ランクボツネックの破壊
Authors: Xiangdi Meng, Damai Dai, Weiyao Luo, Zhe Yang, Shaoxiang Wu, Xiaochen Wang, Peiyi Wang, Qingxiu Dong, Liang Chen, Zhifang Sui
Abstract要約: 監視された微調整は、下流タスクに大規模言語モデル(LLM)を適用する最も一般的な方法である。完全な微調整には膨大な計算資源が必要である。 LoRAは最も広く使われている手法の1つであり、最適化過程は本質的に低次元であると仮定する。
参考スコア（独自算出の注目度）: 39.30090456724925
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Supervised fine-tuning is the most common method to adapt large language models (LLMs) to downstream tasks, but full fine-tuning LLMs requires massive computational resources. Recently, parameter-efficient fine-tuning (PEFT) methods have been widely studied due to its cost-effectiveness. LoRA is one of the most widely used methods, which assumes that the optimization process is essentially low-dimensional. Although LoRA fine-tuning is effective, there is still a performance gap compared to full fine-tuning, since its weight update is limited to low-rank matrices. In order to break the low-rank bottleneck in LoRA Optimization, we propose PeriodicLoRA (PLoRA), which accumulates low-rank update matrices multiple times to achieve a higher update rank. PLoRA has multiple training stages. During each stage, we still update only the LoRA weights. However, at the end of each stage, we unload the LoRA weights into the backbone parameters and then reinitialize the LoRA states. Experimental results show that PLoRA has stronger learning ability, approximately 1.8 times that of LoRA's learning ability at most, but it does not increase memory usage. Further, we introduce a momentum-based unloading strategy for PLoRA to mitigate the training instability.
Abstract（参考訳）: 改良された微調整は、下流タスクに大規模言語モデル(LLM)を適用する最も一般的な方法であるが、完全な微調整 LLM には膨大な計算資源が必要である。近年,パラメータ効率のよい微調整法(PEFT)が広く研究されている。 LoRAは最も広く使われている手法の1つであり、最適化過程は本質的に低次元であると仮定する。 loraの微調整は有効であるが、軽量化は低ランク行列に限られているため、フル微調整に比べて性能の差がある。 LoRA最適化における低ランクボトルネックを解消するために,低ランク更新行列を複数回蓄積し,より高い更新ランクを達成する周期ロラ(PLoRA)を提案する。 PLoRAには複数の訓練段階がある。各ステージでは、LoRAの重みだけを更新します。しかし、各ステージの最後には、LoRA重みをバックボーンパラメータにアンロードし、LoRA状態を再起動します。実験の結果,PLoRAの学習能力はLoRAの学習能力の約1.8倍であるが,メモリ使用量の増加は見られないことがわかった。さらに,ploraの運動量ベースアンロード戦略を導入し,トレーニングの不安定さを緩和する。

関連論文リスト

LoRA Is Slower Than You Think [0.0]
Low-Rank Adaptation (LoRA)は、大規模言語モデル(LLM)において最も広く使われている技術の一つである。少数のトレーニング可能な低ランク重量行列を導入することで、LoRAは更新される必要のあるパラメータの数を大幅に削減する。 LoRAは、すべてのモデルアーキテクチャやトレーニング設定に対して、一貫してスピード改善を提供していません。
論文参考訳（メタデータ） (2025-07-06T08:36:43Z)
BeamLoRA: Beam-Constraint Low-Rank Adaptation [51.52097743781401]
Low-Rank Adaptation (LoRA) はパラメータ効率の良い微調整法として広く採用されている。本研究では,各LoRAモジュールを,各ランクが潜在的サブソリューションに対応するビームとして概念化するビームロラを提案する。
論文参考訳（メタデータ） (2025-02-19T10:33:22Z)
LoRA Done RITE: Robust Invariant Transformation Equilibration for LoRA Optimization [78.93425154518705]
低ランク適応 (LoRA) は、メモリ要求を低減し、LLMのパラメータ効率の高い微調整法である。本稿では,LoRA最適化のための適応行列プレコンディショニング手法であるLoRA-RITEを紹介する。
論文参考訳（メタデータ） (2024-10-27T22:57:12Z)
LoRA-Pro: Are Low-Rank Adapters Properly Optimized? [121.0693322732454]
LoRAとしても知られる低ランク適応は、基礎モデルのパラメータ効率の細かい調整のための顕著な手法として登場した。計算効率にもかかわらず、LoRAは完全な微調整に比べて性能が劣っている。低ランク行列の勾配を戦略的に調整することでLoRAの性能を向上させる手法であるLoRA-Proを導入する。
論文参考訳（メタデータ） (2024-07-25T17:57:12Z)
LoRA Learns Less and Forgets Less [25.09261710396838]
Low-Rank Adaptation (LoRA) は、大規模言語モデルのパラメータ効率の高い微調整法である。プログラムと数学の2つの対象領域におけるLoRAの性能と完全な微調整を比較した。
論文参考訳（メタデータ） (2024-05-15T19:27:45Z)
ResLoRA: Identity Residual Mapping in Low-Rank Adaption [96.59370314485074]
低ランク適応(LoRA)の改良フレームワークであるResLoRAを提案する。提案手法は,LoRAと比較してトレーニング可能なパラメータや推論コストを必要とせずに,より少ないトレーニングステップでより良い結果を得ることができる。 NLG,NLU,テキスト・ツー・イメージタスクの実験により,本手法の有効性が示された。
論文参考訳（メタデータ） (2024-02-28T04:33:20Z)
DoRA: Weight-Decomposed Low-Rank Adaptation [57.68678247436207]
本稿では,FTとLoRAの相違点を明らかにするために,新しい重み分解解析法を提案する。本研究は、FTの学習能力に類似することを目的として、重量分解低ランク適応(DoRA)を提案する。 DoRAは、事前訓練された重量を、微調整のための大きさと方向の2つの構成要素に分解する。
論文参考訳（メタデータ） (2024-02-14T17:59:34Z)
PRILoRA: Pruned and Rank-Increasing Low-Rank Adaptation [65.268245109828]
我々はPRILoRAを導入し、各層ごとに異なるランクを線形に割り当て、トレーニングプロセスを通してプルーニングを行う。 8つのGLUEベンチマークで広範な実験を行い,PRILoRAの有効性を検証する。
論文参考訳（メタデータ） (2024-01-20T20:25:17Z)
Chain of LoRA: Efficient Fine-tuning of Language Models via Residual Learning [31.036465632204663]
本稿では,Frank-Wolfeアルゴリズムにインスパイアされた反復最適化フレームワークであるLoRAのChainを紹介する。計算コストやメモリコストを増大させることなく,COLA が LoRA を一貫して上回ることを示す。
論文参考訳（メタデータ） (2024-01-08T14:26:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。