論文の概要: Learning Rate Matters: Vanilla LoRA May Suffice for LLM Fine-tuning
- arxiv url: http://arxiv.org/abs/2602.04998v1
- Date: Wed, 04 Feb 2026 19:36:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.591204
- Title: Learning Rate Matters: Vanilla LoRA May Suffice for LLM Fine-tuning
- Title(参考訳): バニラ・ローラ氏:LLMの微調整に十分か
- Authors: Yu-Ang Lee, Ching-Yun Ko, Pin-Yu Chen, Mi-Yen Yeh,
- Abstract要約: Low-Rank Adaptation (LoRA)は、効率的な大規模言語モデルの微調整のための一般的なアプローチである。
本研究では,バニラ・ロラとともに4つの代表的ロラ変種を再評価する。
異なるLoRA手法が学習率の異なる範囲を好んでいることが判明した。
- 参考スコア(独自算出の注目度): 48.66442009036754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Low-Rank Adaptation (LoRA) is the prevailing approach for efficient large language model (LLM) fine-tuning. Building on this paradigm, recent studies have proposed alternative initialization strategies and architectural modifications, reporting substantial improvements over vanilla LoRA. However, these gains are often demonstrated under fixed or narrowly tuned hyperparameter settings, despite the known sensitivity of neural networks to training configurations. In this work, we systematically re-evaluate four representative LoRA variants alongside vanilla LoRA through extensive hyperparameter searches. Across mathematical and code generation tasks on diverse model scales, we find that different LoRA methods favor distinct learning rate ranges. Crucially, once learning rates are properly tuned, all methods achieve similar peak performance (within 1-2%), with only subtle rank-dependent behaviors. These results suggest that vanilla LoRA remains a competitive baseline and that improvements reported under single training configuration may not reflect consistent methodological advantages. Finally, a second-order analysis attributes the differing optimal learning rate ranges to variations in the largest Hessian eigenvalue, aligning with classical learning theories.
- Abstract(参考訳): Low-Rank Adaptation (LoRA)は、LLMファインチューニングのための一般的なアプローチである。
このパラダイムに基づいて、最近の研究では、代替初期化戦略とアーキテクチャ修正を提案し、バニラロラよりも大幅に改善されたことを報告している。
しかしながら、これらの利得は、ニューラルネットワークのトレーニング設定に対する感度が既知のにもかかわらず、固定または狭められたハイパーパラメータ設定の下でしばしば示される。
本研究では,広範なハイパーパラメータ探索により,バニラロラとともに4つの代表的ロラ変種を体系的に再評価する。
多様なモデルスケール上の数学的およびコード生成タスク全体において、異なるLoRA手法が学習率の異なる範囲を好んでいることが判明した。
重要なことに、学習率が適切に調整されると、すべてのメソッドが、微妙なランク依存の振る舞いだけで、同様のピークパフォーマンス(1-2%)を達成する。
これらの結果から,バニラロラは依然として競争基準であり,単一のトレーニング構成で報告された改善は一貫した方法論上の利点を反映していない可能性が示唆された。
最後に、二階述語解析は、異なる最適な学習速度は、古典的な学習理論と整合して、最大のヘッセン固有値の変動に比例する。
関連論文リスト
- A Unified Study of LoRA Variants: Taxonomy, Review, Codebase, and Empirical Evaluation [22.672020176368083]
Low-Rank Adaptation (LoRA)は、大規模ニューラルネットワークにおける効率と性能のバランスをとるパラメータ効率の良い微調整手法である。
この研究は、体系的な分類学、統一された理論的レビュー、構造化された経験的評価、および標準化された経験的評価を提供する、LoRA変種の最初の統一的な研究を提示する。
論文 参考訳(メタデータ) (2026-01-30T08:30:05Z) - Robust Federated Finetuning of LLMs via Alternating Optimization of LoRA [10.756801183126525]
ファインチューンなLoRAアダプタに交互に最適化を施した,フェデレートされたフレームワークであるRoLoRAを提案する。
理論解析と広範な実験の両方を用いて,RoLoRAの先行的アプローチに対する利点を実証する。
論文 参考訳(メタデータ) (2025-02-03T19:02:00Z) - SD-LoRA: Scalable Decoupled Low-Rank Adaptation for Class Incremental Learning [73.93639228235622]
基礎モデルによる継続的な学習は、シーケンシャルなタスクに取り組むための事前トレーニング中に得られた豊富な知識を活用するための有望なパラダイムとして現れてきた。
既存のプロンプトベースおよびローランク適応ベース(LoRAベース)メソッドでは、プロンプト/ローラプールの拡張や、以前のタスクのサンプルの保持がしばしば必要である。
クラスインクリメンタル学習のためのスケーラブルデカップリングLoRA(SD-LoRA)を提案する。
論文 参考訳(メタデータ) (2025-01-22T20:00:41Z) - DoRA: Weight-Decomposed Low-Rank Adaptation [57.68678247436207]
本稿では,FTとLoRAの相違点を明らかにするために,新しい重み分解解析法を提案する。
本研究は、FTの学習能力に類似することを目的として、重量分解低ランク適応(DoRA)を提案する。
DoRAは、事前訓練された重量を、微調整のための大きさと方向の2つの構成要素に分解する。
論文 参考訳(メタデータ) (2024-02-14T17:59:34Z) - PRILoRA: Pruned and Rank-Increasing Low-Rank Adaptation [65.268245109828]
我々はPRILoRAを導入し、各層ごとに異なるランクを線形に割り当て、トレーニングプロセスを通してプルーニングを行う。
8つのGLUEベンチマークで広範な実験を行い,PRILoRAの有効性を検証する。
論文 参考訳(メタデータ) (2024-01-20T20:25:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。