論文の概要: One LR Doesn't Fit All: Heavy-Tail Guided Layerwise Learning Rates for LLMs
- arxiv url: http://arxiv.org/abs/2605.22297v1
- Date: Thu, 21 May 2026 10:46:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.21517
- Title: One LR Doesn't Fit All: Heavy-Tail Guided Layerwise Learning Rates for LLMs
- Title(参考訳): 1つのLRが全てを満たさない:LLMのための重機誘導層学習率
- Authors: Di He, Songjun Tu, Keyu Wang, Lu Yin, Shiwei Liu,
- Abstract要約: レイヤワイズラーニングレート(レイヤワイズラーニングレート、Layerwise Learning Rate、LLR)は、個々のトランスフォーマー層に異なるラーニングレートを割り当てる適応型スキームである。
LLRは階層間のバランスの取れたトレーニングを促進し、より高速な収束と一般化の改善につながる。
- 参考スコア(独自算出の注目度): 19.49856488618013
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning rate configuration is a fundamental aspect of modern deep learning. The prevailing practice of applying a uniform learning rate across all layers overlooks the structural heterogeneity of Transformers, potentially limiting their effectiveness as the backbone of Large Language Models (LLMs). In this paper, we introduce Layerwise Learning Rate (LLR), an adaptive scheme that assigns distinct learning rates to individual Transformer layers. Our method is grounded in Heavy-Tailed Self-Regularization (HT-SR) theory, which characterizes the empirical spectral density (ESD) of weight correlation matrices to quantify heavy-tailedness. Layers with weaker heavy-tailedness are assigned larger learning rates to accelerate their training, while layers with stronger heavy-tailedness receive smaller learning rates. By tailoring learning rates in this manner, LLR promotes balanced training across layers, leading to faster convergence and improved generalization. Extensive experiments across architectures (from LLaMA to GPT-nano), optimizers (AdamW and Muon), and parameter scales (60M-1B) demonstrate that LLR achieves up to 1.5x training speedup and outperforms baselines, notably raising average zero-shot accuracy from 47.09% to 49.02%. A key advantage of LLR is its low tuning overhead: it transfers nearly optimal LR settings directly from the uniform baseline. Code is available at https://github.com/hed-ucas/Layer-wise-Learning-Rate.
- Abstract(参考訳): 学習率の設定は、現代のディープラーニングの基本的な側面である。
すべての層に一様学習率を適用するという一般的な実践はトランスフォーマーの構造的不均一性を見落としており、大きな言語モデル(LLM)のバックボーンとしての有効性を制限している可能性がある。
本稿では,個々のトランスフォーマー層に異なる学習率を割り当てる適応型スキームであるLayerwise Learning Rate (LLR)を紹介する。
重み付き自己正則化(HT-SR)理論は,重み相関行列の実験的スペクトル密度(ESD)を特徴付けるものであり,重み付き自己正則化(HT-SR)理論に基づいている。
重い尾の弱い層はトレーニングを加速するためにより大きな学習率を割り当て、重い尾の弱い層はより少ない学習率を受け取る。
このように学習率を調整することにより、LLRは階層間のバランスの取れたトレーニングを促進し、より高速な収束と一般化の改善につながる。
アーキテクチャ(LLaMAからGPT-nanoまで)、オプティマイザ(AdamWとMuon)、パラメータスケール(60M-1B)の広範な実験により、LLRは最大1.5倍のトレーニングスピードアップを達成し、ベースラインを上回り、平均ゼロショット精度は47.09%から49.02%に向上した。
LLRの主な利点は、チューニングのオーバーヘッドが低いことである。
コードはhttps://github.com/hed-ucas/Layer-wise-Learning-Rateで公開されている。
関連論文リスト
- Accelerating Reinforcement Learning Algorithms Convergence using Pre-trained Large Language Models as Tutors With Advice Reusing [5.414308305392762]
大規模言語モデル (LLM) は、強化学習 (RL) アルゴリズムを用いた学生-教師アーキテクチャの家庭教師である。
以上の結果から,LLMのチュータリングはRLの収束を著しく促進し,最適性能の維持を図っている。
アドバイス再利用機構は、トレーニング期間をさらに改善するだけでなく、より安定した収束ダイナミクスをもたらす。
論文 参考訳(メタデータ) (2025-09-10T07:08:04Z) - Shuffle-R1: Efficient RL framework for Multimodal Large Language Models via Data-centric Dynamic Shuffle [65.14124923451077]
強化学習(Reinforcement Learning, RL)は、マルチモーダル大言語モデル(MLLM)の推論能力を高めるための効果的なポストトレーニングパラダイムとして登場した。
しかしながら、現在のRLパイプラインは、アドバンテージ・コラプシング(Advantage Collapsing)とロールアウト・サイレンシング(Rollout Silencing)という2つの未解決の問題によって、トレーニングの非効率に悩まされることが多い。
軌道サンプリングとバッチ合成を動的に再構成することにより、RLの微調整効率を向上する、シンプルだが原則化されたフレームワークであるShuffle-R1を提案する。
論文 参考訳(メタデータ) (2025-08-07T17:53:47Z) - Scaling Optimal LR Across Token Horizons [81.29631219839311]
LLMトレーニングにおいて,最適な学習速度がトークン水平線に依存することを示す。
また,LLama-1が高LRを多用した証拠も提示し,その性能を推定した。
論文 参考訳(メタデータ) (2024-09-30T03:32:02Z) - Outlier-weighed Layerwise Sampling for LLM Fine-tuning [18.102930806071978]
Outlier-weighed Layerwise Smplingはメモリ効率の良い微調整アプローチである。
我々は、OWSが完全な微調整を含むベースラインアプローチを一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2024-05-28T17:22:22Z) - On the Weight Dynamics of Deep Normalized Networks [5.250288418639077]
ディープニューラルネットワークの層間の効果的な学習率(ELR)の相違は、トレーニング容易性に悪影響を及ぼす可能性がある。
正規化層を持つネットワークの重み力学をモデル化することにより、これらの相違が時間とともにどのように進化するかを定式化する。
一定の学習率のトレーニングでは,初期勾配の爆発にもかかわらず,ELR比が1に収束することが証明された。
論文 参考訳(メタデータ) (2023-06-01T14:09:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。