論文の概要: Revealing Modular Gradient Noise Imbalance in LLMs: Calibrating Adam via Signal-to-Noise Ratio
- arxiv url: http://arxiv.org/abs/2605.05794v1
- Date: Thu, 07 May 2026 07:32:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.595148
- Title: Revealing Modular Gradient Noise Imbalance in LLMs: Calibrating Adam via Signal-to-Noise Ratio
- Title(参考訳): LLMにおけるモード勾配雑音の不均衡の解消:信号対雑音比によるアダムの校正
- Authors: Ziqing Wen, Zhouyang Liu, Jiahuan Wang, Ping Luo, Li Shen, Dongsheng Li, Tao Sun,
- Abstract要約: SNR (MoLS) を用いた textbfModule-wise Learning Rate Scaling を提案する。
MoLSはモジュールレベルのSNRを推定してAdam更新をスケールし、手動チューニングなしでモジュール単位の学習率の自動割り当てを可能にする。
複数のLLMトレーニングベンチマークによる実証的な結果は、MoLSが収束速度と一般化を改善し、注意深く調整されたモジュール固有の学習速度に匹敵する性能を達成することを示した。
- 参考スコア(独自算出の注目度): 45.81412107070137
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The impressive performance of large language models (LLMs) arises from their massive scale and heterogeneous module composition. However, this structural heterogeneity introduces additional optimization challenges. While adaptive optimizers such as Adam(W) provide per-parameter adaptivity, they do not explicitly account for module-level gradient heterogeneity, resulting in slower convergence, suboptimal performance, or training instability. Existing approaches typically rely on manually tuned module-specific learning rates or specific optimization strategies, which are computationally costly and difficult to generalize across tasks or models. To establish a more principled approach, we first analyze the noise-damping behavior of Adam in high-noise modules and introduce \textbf{Module-wise Learning Rate Scaling via SNR (MoLS)}. MoLS estimates module-level SNRs to scale Adam updates, allowing automated module-wise learning rate allocation without manual tuning. Empirical results through multiple LLM training benchmarks demonstrate that MoLS improves convergence speed and generalization, achieving performance comparable to carefully tuned module-specific learning rates, while remaining compatible with memory-efficient training algorithms.
- Abstract(参考訳): 大きな言語モデル(LLM)の印象的な性能は、その大規模かつ異種モジュール構成から生じる。
しかし、この構造的不均一性はさらなる最適化の課題をもたらす。
Adam(W) のような適応最適化器はパラメータごとの適応性を提供するが、モジュールレベルの勾配の不均一性を明示的に考慮していない。
既存のアプローチは、通常、手動で調整されたモジュール固有の学習率や特定の最適化戦略に依存しており、これは計算コストが高く、タスクやモデル全体にわたって一般化するのが困難である。
より原理的なアプローチを確立するために,我々はまず高雑音モジュールにおけるAdamのノイズ減衰挙動を分析し,SNR (MoLS) を介して \textbf{Module-wise Learning Rate Scaling を導入する。
MoLSはモジュールレベルのSNRを推定してAdam更新をスケールし、手動チューニングなしでモジュール単位の学習率の自動割り当てを可能にする。
複数のLLMトレーニングベンチマークによる実証的な結果から、MoLSは収束速度と一般化を改善し、メモリ効率のトレーニングアルゴリズムとの互換性を維持しながら、注意深く調整されたモジュール固有学習率に匹敵する性能を達成することが示されている。
関連論文リスト
- Taming LLMs by Scaling Learning Rates with Gradient Grouping [49.91587150497186]
大きな言語モデル(LLM)のトレーニングは、その大規模で異質なアーキテクチャのため、課題を提起する。
SGG(Scaling with Gradient Grouping)は、動的グルーピングとグループ固有のスケーリングによる適応的な学習率推定を改善するグラデーションラッパーである。
論文 参考訳(メタデータ) (2025-06-01T15:30:37Z) - Leveraging Importance Sampling to Detach Alignment Modules from Large Language Models [48.15777554876988]
伝統的なアライメント手法では、しばしば大きな事前訓練されたモデルを再訓練する必要がある。
本稿では,アライメント処理を重要サンプリングの一種として形式化する新しいtextitResidual Alignment Model (textitRAM) を提案する。
本稿では,トークンレベルの復号化を反復的に行う再サンプリングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-05-26T08:53:02Z) - Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [63.10833446782114]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。
Zeroth-order (ZO) 最適化手法はメモリ効率の良い代替手段を提供する。
本稿では,高次元摂動によって生じる課題に対処するために,部分空間ゼロ次最適化を提案する。
論文 参考訳(メタデータ) (2024-10-11T17:01:43Z) - Spectrum: Targeted Training on Signal to Noise Ratio [39.74810517186403]
本稿では,SNR(Signal-to-Noise ratio)に基づいた層モジュールを選択的に標的としたLCM学習を高速化するSpectrumを提案する。
トレーニング前のモジュールSNRの計算にアルゴリズムを用いる本手法では,GPUメモリ使用量を削減するとともに,フル微調整の性能を効果的に向上することを示した。
論文 参考訳(メタデータ) (2024-06-07T21:20:57Z) - Train Faster, Perform Better: Modular Adaptive Training in Over-Parameterized Models [31.960749305728488]
モジュラーニューラルタンジェントカーネル(mNTK)と呼ばれる新しい概念を導入する。
モジュールの学習の質が mNTK の主固有値 $lambda_max$ と密接に関連していることを示す。
動的しきい値を超えたlambda_max$でこれらのモジュールを更新するための,MAT(Modular Adaptive Training)と呼ばれる新しいトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-05-13T07:46:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。