論文の概要: Learning Rate Scaling across LoRA Ranks and Transfer to Full Finetuning
- arxiv url: http://arxiv.org/abs/2602.06204v1
- Date: Thu, 05 Feb 2026 21:28:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.116736
- Title: Learning Rate Scaling across LoRA Ranks and Transfer to Full Finetuning
- Title(参考訳): LoRAランクにおける学習速度のスケーリングとフルファインタニングへの移行
- Authors: Nan Chen, Soledad Villar, Soufiane Hayou,
- Abstract要約: Low-Rank Adaptation (LoRA) は、大規模モデルのパラメータ効率の良い微調整ツールである。
最適な学習速度がアダプタランクとどのようにスケールするかは不明確である。
最適」学習率がいかにスケールすべきかを特徴付ける理論フレームワークであるMaximal-Update Adaptation(A)を紹介する。
- 参考スコア(独自算出の注目度): 24.03926595342341
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Low-Rank Adaptation (LoRA) is a standard tool for parameter-efficient finetuning of large models. While it induces a small memory footprint, its training dynamics can be surprisingly complex as they depend on several hyperparameters such as initialization, adapter rank, and learning rate. In particular, it is unclear how the optimal learning rate scales with adapter rank, which forces practitioners to re-tune the learning rate whenever the rank is changed. In this paper, we introduce Maximal-Update Adaptation ($μ$A), a theoretical framework that characterizes how the "optimal" learning rate should scale with model width and adapter rank to produce stable, non-vanishing feature updates under standard configurations. $μ$A is inspired from the Maximal-Update Parametrization ($μ$P) in pretraining. Our analysis leverages techniques from hyperparameter transfer and reveals that the optimal learning rate exhibits different scaling patterns depending on initialization and LoRA scaling factor. Specifically, we identify two regimes: one where the optimal learning rate remains roughly invariant across ranks, and another where it scales inversely with rank. We further identify a configuration that allows learning rate transfer from LoRA to full finetuning, drastically reducing the cost of learning rate tuning for full finetuning. Experiments across language, vision, vision--language, image generation, and reinforcement learning tasks validate our scaling rules and show that learning rates tuned on LoRA transfer reliably to full finetuning.
- Abstract(参考訳): Low-Rank Adaptation (LoRA)は、大規模モデルのパラメータ効率の高い微調整のための標準ツールである。
メモリフットプリントは小さいが、初期化、アダプタランク、学習率などいくつかのハイパーパラメータに依存するため、トレーニングダイナミクスは驚くほど複雑である。
特に、最適な学習率がアダプタランクとどのようにスケールするかははっきりしないため、ランクが変更されるたびに学習率を調整せざるを得ない。
本稿では,「最適」学習速度がモデル幅とアダプタランクとどのようにスケールするかを特徴付ける理論フレームワークであるMaximal-Update Adaptation(μ$A)を紹介する。
$μ$Aは、事前トレーニングにおける最大更新パラメトリゼーション(μ$P)から着想を得ている。
本分析では,ハイパーパラメータ転送の手法を用いて,初期化とLoRAスケーリング係数に応じて,最適学習率が異なるスケーリングパターンを示すことを示した。
具体的には、最適学習率が大まかに不変なランクと、逆スケールのランクの2つを識別する。
さらに,LoRAから完全微調整へ学習率を移行できる構成を同定し,完全微調整のための学習率調整のコストを大幅に削減する。
言語、視覚、視覚-言語、画像生成、強化学習タスクにわたる実験は、我々のスケーリングルールを検証し、LoRA転送に確実に調整された学習率を完全な微調整に示す。
関連論文リスト
- Learning Rate Matters: Vanilla LoRA May Suffice for LLM Fine-tuning [48.66442009036754]
Low-Rank Adaptation (LoRA)は、効率的な大規模言語モデルの微調整のための一般的なアプローチである。
本研究では,バニラ・ロラとともに4つの代表的ロラ変種を再評価する。
異なるLoRA手法が学習率の異なる範囲を好んでいることが判明した。
論文 参考訳(メタデータ) (2026-02-04T19:36:20Z) - Hyperparameter Transfer Enables Consistent Gains of Matrix-Preconditioned Optimizers Across Scales [55.91454326946738]
学習速度と減量率の最適化は,幅広い言語に対して,モデルの幅と深さでどのようにスケールするかを検討する。
我々は、$Pによる学習率のスケーリングは転送を改善するが、それでもかなりの有限幅偏差に悩まされる可能性があることを見出した。
計算-最適スケーリングでは、独立したウェイト崩壊が1/mathrmwidth$で言語間でほぼ最適であることが分かる。
論文 参考訳(メタデータ) (2025-12-05T11:03:41Z) - LoFT: Low-Rank Adaptation That Behaves Like Full Fine-Tuning [5.980897761790243]
フル微調整のように振る舞う新しいローランク適応法であるLoFTを紹介する。
LoFTはモデルの内部のダイナミクスを、すべてのモデルの重みを更新するものと整合させる。
実験的に、このアプローチはアダプタベースのチューニングとフル微調整の間のパフォーマンスギャップを著しく狭める。
論文 参考訳(メタデータ) (2025-05-27T14:54:24Z) - Adaptive Rank, Reduced Forgetting: Knowledge Retention in Continual Learning Vision-Language Models with Dynamic Rank-Selective LoRA [26.079123341965687]
低ランク学習を研究し,LoRAのランクや配置が学習や忘れにどのように影響するかを分析した。
上位のLoRAはタスク学習(塑性)を改善するが、下位のLoRAは安定性を高めるが適応を制限する。
そこで我々は,適応的に最適化されたLoRAアダプタを用いてPTMを継続的に更新する連続動的ランク選択LoRA(CoDyRA)を提案する。
論文 参考訳(メタデータ) (2024-12-01T23:41:42Z) - Parameter Efficient Instruction Tuning: An Empirical Study [1.5186090363516862]
効率的なファインタニング(PEFT)は、完全なファインタニングに比べて計算量、メモリ、ストレージコストが大幅に小さくなるため、命令チューニングのコスト効率が向上している。
実験により、LoRAとアダプタだけが、理想的なトレーニング設定で完全に微調整できることがわかった。
論文 参考訳(メタデータ) (2024-11-25T07:06:09Z) - Less is More: Extreme Gradient Boost Rank-1 Adaption for Efficient Finetuning of LLMs [75.11449420928139]
微調整型大規模言語モデル(LLM)は、訓練済みモデルを下流タスクに適応させる上で重要な技術となっている。
Low-Rank Adaptation (LoRA) は有望な解決法として登場したが、低ランク適応の実用性能と理論的最適性の間にはギャップがある。
本稿では,このギャップを埋める新しいフレームワークであるeXtreme Gradient Boosting LoRAを提案する。
論文 参考訳(メタデータ) (2024-10-25T17:07:13Z) - DoRA: Weight-Decomposed Low-Rank Adaptation [57.68678247436207]
本稿では,FTとLoRAの相違点を明らかにするために,新しい重み分解解析法を提案する。
本研究は、FTの学習能力に類似することを目的として、重量分解低ランク適応(DoRA)を提案する。
DoRAは、事前訓練された重量を、微調整のための大きさと方向の2つの構成要素に分解する。
論文 参考訳(メタデータ) (2024-02-14T17:59:34Z) - Flora: Low-Rank Adapters Are Secretly Gradient Compressors [30.224822087562163]
低ランク適応(LoRA)は、少ないパラメータをトレーニングすることで最適化状態を低減するために提案される。
LoRAは全体の重量更新行列を低ランクに制限し、モデル性能を制限している。
本稿では,プロジェクション行列を再サンプリングすることで高階更新を実現する Flora を提案する。
論文 参考訳(メタデータ) (2024-02-05T18:50:39Z) - PRILoRA: Pruned and Rank-Increasing Low-Rank Adaptation [65.268245109828]
我々はPRILoRAを導入し、各層ごとに異なるランクを線形に割り当て、トレーニングプロセスを通してプルーニングを行う。
8つのGLUEベンチマークで広範な実験を行い,PRILoRAの有効性を検証する。
論文 参考訳(メタデータ) (2024-01-20T20:25:17Z) - Sparse Low-rank Adaptation of Pre-trained Language Models [79.74094517030035]
本稿では,適応過程における固有ランクの動的調整を可能にする疎低ランク適応(SoRA)を提案する。
提案手法は,LoRAを高いランクで初期化すると同時に,一時的に増大するパラメータを効率的に利用することにより,LoRAの表現力を向上する。
実験の結果,SoRAは70%の保持パラメータと70%のトレーニング時間でも,他のベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-20T11:56:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。