Fugu-MT 論文翻訳(概要): Revealing Modular Gradient Noise Imbalance in LLMs: Calibrating Adam via Signal-to-Noise Ratio

論文の概要: Revealing Modular Gradient Noise Imbalance in LLMs: Calibrating Adam via Signal-to-Noise Ratio

arxiv url: http://arxiv.org/abs/2605.05794v1
Date: Thu, 07 May 2026 07:32:27 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-08 22:27:11.595148
Title: Revealing Modular Gradient Noise Imbalance in LLMs: Calibrating Adam via Signal-to-Noise Ratio
Title（参考訳）: LLMにおけるモード勾配雑音の不均衡の解消:信号対雑音比によるアダムの校正
Authors: Ziqing Wen, Zhouyang Liu, Jiahuan Wang, Ping Luo, Li Shen, Dongsheng Li, Tao Sun,
Abstract要約: SNR (MoLS) を用いた textbfModule-wise Learning Rate Scaling を提案する。 MoLSはモジュールレベルのSNRを推定してAdam更新をスケールし、手動チューニングなしでモジュール単位の学習率の自動割り当てを可能にする。複数のLLMトレーニングベンチマークによる実証的な結果は、MoLSが収束速度と一般化を改善し、注意深く調整されたモジュール固有の学習速度に匹敵する性能を達成することを示した。
参考スコア（独自算出の注目度）: 45.81412107070137
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The impressive performance of large language models (LLMs) arises from their massive scale and heterogeneous module composition. However, this structural heterogeneity introduces additional optimization challenges. While adaptive optimizers such as Adam(W) provide per-parameter adaptivity, they do not explicitly account for module-level gradient heterogeneity, resulting in slower convergence, suboptimal performance, or training instability. Existing approaches typically rely on manually tuned module-specific learning rates or specific optimization strategies, which are computationally costly and difficult to generalize across tasks or models. To establish a more principled approach, we first analyze the noise-damping behavior of Adam in high-noise modules and introduce \textbf{Module-wise Learning Rate Scaling via SNR (MoLS)}. MoLS estimates module-level SNRs to scale Adam updates, allowing automated module-wise learning rate allocation without manual tuning. Empirical results through multiple LLM training benchmarks demonstrate that MoLS improves convergence speed and generalization, achieving performance comparable to carefully tuned module-specific learning rates, while remaining compatible with memory-efficient training algorithms.
Abstract（参考訳）: 大きな言語モデル(LLM)の印象的な性能は、その大規模かつ異種モジュール構成から生じる。しかし、この構造的不均一性はさらなる最適化の課題をもたらす。 Adam(W) のような適応最適化器はパラメータごとの適応性を提供するが、モジュールレベルの勾配の不均一性を明示的に考慮していない。既存のアプローチは、通常、手動で調整されたモジュール固有の学習率や特定の最適化戦略に依存しており、これは計算コストが高く、タスクやモデル全体にわたって一般化するのが困難である。より原理的なアプローチを確立するために,我々はまず高雑音モジュールにおけるAdamのノイズ減衰挙動を分析し,SNR (MoLS) を介して \textbf{Module-wise Learning Rate Scaling を導入する。 MoLSはモジュールレベルのSNRを推定してAdam更新をスケールし、手動チューニングなしでモジュール単位の学習率の自動割り当てを可能にする。複数のLLMトレーニングベンチマークによる実証的な結果から、MoLSは収束速度と一般化を改善し、メモリ効率のトレーニングアルゴリズムとの互換性を維持しながら、注意深く調整されたモジュール固有学習率に匹敵する性能を達成することが示されている。

論文の概要: Revealing Modular Gradient Noise Imbalance in LLMs: Calibrating Adam via Signal-to-Noise Ratio

関連論文リスト