論文の概要: One LR Doesn't Fit All: Heavy-Tail Guided Layerwise Learning Rates for LLMs
- arxiv url: http://arxiv.org/abs/2605.22297v2
- Date: Tue, 26 May 2026 06:04:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:40.885517
- Title: One LR Doesn't Fit All: Heavy-Tail Guided Layerwise Learning Rates for LLMs
- Title(参考訳): 1つのLRが全てを満たさない:LLMのための重機誘導層学習率
- Authors: Di He, Songjun Tu, Keyu Wang, Lu Yin, Shiwei Liu,
- Abstract要約: レイヤワイズラーニングレート(レイヤワイズラーニングレート、Layerwise Learning Rate、LLR)は、個々のトランスフォーマー層に異なるラーニングレートを割り当てる適応型スキームである。
LLRは最大1.5倍のトレーニングスピードアップを実現し、一様学習率ベースラインを一貫して上回る。
- 参考スコア(独自算出の注目度): 19.49856488618013
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning rate configuration is a fundamental aspect of modern deep learning. The prevailing practice of applying a uniform learning rate across all layers overlooks the structural heterogeneity of Transformers, potentially limiting their effectiveness as the backbone of Large Language Models (LLMs). In this paper, we introduce Layerwise Learning Rate (LLR), an adaptive scheme that assigns distinct learning rates to individual Transformer layers. Our method is grounded in Heavy-Tailed Self-Regularization (HT-SR) theory, which characterizes the empirical spectral density (ESD) of weight correlation matrices to quantify heavy-tailedness. Layers with weaker heavy-tailedness are assigned larger learning rates to accelerate training, while layers with stronger heavy-tailedness receive smaller learning rates. By tailoring learning rates in this manner, LLR promotes more balanced training across layers, leading to faster convergence and improved generalization. Extensive experiments across architectures ranging from LLaMA to GPT-nano, optimizers including AdamW and Muon, and model scales from 60M to 3B parameters with up to 100B training tokens demonstrate the effectiveness of LLR. LLR achieves up to 1.5x training speedup and consistently outperforms uniform-learning-rate baselines. In particular, it improves the average zero-shot accuracy of 1B models from 47.09% to 49.02%, and that of 3B models from 48.58% to 50.61%. A key advantage of LLR is its low tuning overhead: it can transfer nearly optimal learning-rate settings directly from the uniform baseline. Code is available at https://github.com/hed-ucas/Layer-wise-Learning-Rate.
- Abstract(参考訳): 学習率の設定は、現代のディープラーニングの基本的な側面である。
すべての層に一様学習率を適用するという一般的な実践はトランスフォーマーの構造的不均一性を見落としており、大きな言語モデル(LLM)のバックボーンとしての有効性を制限している可能性がある。
本稿では,個々のトランスフォーマー層に異なる学習率を割り当てる適応型スキームであるLayerwise Learning Rate (LLR)を紹介する。
重み付き自己正則化(HT-SR)理論は,重み相関行列の実験的スペクトル密度(ESD)を特徴付けるものであり,重み付き自己正則化(HT-SR)理論に基づいている。
より弱い重み付けの層はトレーニングを加速するためにより大きな学習率を割り当て、強い重み付けの層はより少ない学習率を受け取る。
このように学習率を調整することにより、LLRは階層間のバランスの取れたトレーニングを促進し、より早く収束し、一般化を向上する。
LLaMAからGPT-nanoまでのアーキテクチャ、AdamWやMuonなどのオプティマイザ、最大100Bのトレーニングトークンを持つ60Mから3Bパラメータのモデルスケールの広範な実験は、LLRの有効性を示している。
LLRは最大1.5倍のトレーニングスピードアップを実現し、一様学習率ベースラインを一貫して上回る。
特に、1Bモデルの平均ゼロショット精度を47.09%から49.02%に改善し、3Bモデルの平均ゼロショット精度を48.58%から50.61%に改善した。
LLRの主な利点は、チューニングのオーバーヘッドが低いことである。
コードはhttps://github.com/hed-ucas/Layer-wise-Learning-Rateで公開されている。
関連論文リスト
- Accelerating Reinforcement Learning Algorithms Convergence using Pre-trained Large Language Models as Tutors With Advice Reusing [5.414308305392762]
大規模言語モデル (LLM) は、強化学習 (RL) アルゴリズムを用いた学生-教師アーキテクチャの家庭教師である。
以上の結果から,LLMのチュータリングはRLの収束を著しく促進し,最適性能の維持を図っている。
アドバイス再利用機構は、トレーニング期間をさらに改善するだけでなく、より安定した収束ダイナミクスをもたらす。
論文 参考訳(メタデータ) (2025-09-10T07:08:04Z) - Shuffle-R1: Efficient RL framework for Multimodal Large Language Models via Data-centric Dynamic Shuffle [65.14124923451077]
強化学習(Reinforcement Learning, RL)は、マルチモーダル大言語モデル(MLLM)の推論能力を高めるための効果的なポストトレーニングパラダイムとして登場した。
しかしながら、現在のRLパイプラインは、アドバンテージ・コラプシング(Advantage Collapsing)とロールアウト・サイレンシング(Rollout Silencing)という2つの未解決の問題によって、トレーニングの非効率に悩まされることが多い。
軌道サンプリングとバッチ合成を動的に再構成することにより、RLの微調整効率を向上する、シンプルだが原則化されたフレームワークであるShuffle-R1を提案する。
論文 参考訳(メタデータ) (2025-08-07T17:53:47Z) - Scaling Optimal LR Across Token Horizons [81.29631219839311]
LLMトレーニングにおいて,最適な学習速度がトークン水平線に依存することを示す。
また,LLama-1が高LRを多用した証拠も提示し,その性能を推定した。
論文 参考訳(メタデータ) (2024-09-30T03:32:02Z) - Outlier-weighed Layerwise Sampling for LLM Fine-tuning [18.102930806071978]
Outlier-weighed Layerwise Smplingはメモリ効率の良い微調整アプローチである。
我々は、OWSが完全な微調整を含むベースラインアプローチを一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2024-05-28T17:22:22Z) - On the Weight Dynamics of Deep Normalized Networks [5.250288418639077]
ディープニューラルネットワークの層間の効果的な学習率(ELR)の相違は、トレーニング容易性に悪影響を及ぼす可能性がある。
正規化層を持つネットワークの重み力学をモデル化することにより、これらの相違が時間とともにどのように進化するかを定式化する。
一定の学習率のトレーニングでは,初期勾配の爆発にもかかわらず,ELR比が1に収束することが証明された。
論文 参考訳(メタデータ) (2023-06-01T14:09:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。