Fugu-MT 論文翻訳(概要): AlphaDecay: Module-wise Weight Decay for Heavy-Tailed Balancing in LLMs

論文の概要: AlphaDecay: Module-wise Weight Decay for Heavy-Tailed Balancing in LLMs

arxiv url: http://arxiv.org/abs/2506.14562v2
Date: Sun, 22 Jun 2025 12:57:32 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-24 12:48:19.127693
Title: AlphaDecay: Module-wise Weight Decay for Heavy-Tailed Balancing in LLMs
Title（参考訳）: AlphaDecay: LLMにおけるヘビーバランスのためのモジュール単位の軽量化
Authors: Di He, Ajay Jaiswal, Songjun Tu, Li Shen, Ganzhao Yuan, Shiwei Liu, Lu Yin,
Abstract要約: 重崩壊は、大規模言語モデル(LLM)を訓練するための標準正規化手法である LLMの各モジュールに異なる重み付け強度を適応的に割り当てるAlphaDecayを導入する。提案手法は, スペクトル特性のモジュールワイド差のバランスをとるために, 調整した重み付き崩壊割当を利用するため, 性能が向上する。
参考スコア（独自算出の注目度）: 47.72624844278131
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Weight decay is a standard regularization technique for training large language models (LLMs). While it is common to assign a uniform decay rate to every layer, this approach overlooks the structural diversity of LLMs and the varying spectral properties across modules. In this paper, we introduce AlphaDecay, a simple yet effective method that adaptively assigns different weight decay strengths to each module of an LLM. Our approach is guided by Heavy-Tailed Self-Regularization (HT-SR) theory, which analyzes the empirical spectral density (ESD) of weight correlation matrices to quantify "heavy-tailedness." Modules exhibiting more pronounced heavy-tailed ESDs, reflecting stronger feature learning, are assigned weaker decay, while modules with lighter-tailed spectra receive stronger decay. Our method leverages tailored weight decay assignments to balance the module-wise differences in spectral properties, leading to improved performance. Extensive pre-training tasks with various model sizes from 60M to 1B demonstrate that AlphaDecay achieves better perplexity and generalization than conventional uniform decay and other adaptive decay baselines. Our code is available at https://github.com/hed-ucas/AlphaDecay.
Abstract（参考訳）: 重崩壊は、大規模言語モデル(LLM)を訓練するための標準正規化手法である。すべての層に均一な減衰率を割り当てることは一般的であるが、このアプローチはLLMの構造的多様性とモジュール間のスペクトル特性を無視する。本稿では,LLMの各モジュールに異なる重み付け強度を適応的に割り当てる,単純で効果的な方法であるAlphaDecayを紹介する。重み付き自己正則化(HT-SR)理論は,重み相関行列の実験的スペクトル密度(ESD)を分析し,重み付き自己正則性(heavy-tailedness)を定量化する手法である。より顕著な重み付きESDを示すモジュールはより強い特徴学習を反映し、弱いスペクトルを持つモジュールはより強い減衰を受ける。提案手法は, スペクトル特性のモジュールワイド差のバランスをとるために, 調整した重み付き崩壊割当を利用するため, 性能が向上する。 60M から 1B までの様々なモデルサイズを持つ広範囲な事前学習タスクは、AlphaDecay が従来の一様崩壊やその他の適応的崩壊ベースラインよりも、より複雑で一般化されたことを証明している。私たちのコードはhttps://github.com/hed-ucas/AlphaDecay.comで利用可能です。

関連論文リスト

AlphaPruning: Using Heavy-Tailed Self Regularization Theory for Improved Layer-wise Pruning of Large Language Models [94.82766517752418]
そこで我々は,AlphaPruningを提案する。このAlphaPruningは,より理論的に原理化された方法で,水平方向の空間比を割り振る。以上よりAlphaPruning prunes LLaMA-7B to 80% sparsity while maintain well perplexity, marking a first in the literature on LLMs。
論文参考訳（メタデータ） (2024-10-14T03:35:11Z)
From Low Rank Gradient Subspace Stabilization to Low-Rank Weights: Observations, Theories, and Applications [85.17672240603011]
大規模言語モデルにおける重み行列の非一様低ランク特性について検討する。 WeLore(Weight Low-Rank Projection)は、重み圧縮とメモリ効率の微調整を一体化したものである。
論文参考訳（メタデータ） (2024-07-15T21:05:20Z)
Why Do We Need Weight Decay in Modern Deep Learning? [24.81634291051533]
重崩壊は、画像分類から大規模言語モデルまで、最先端の深層ネットワークを訓練するための技術である。本研究では,現代深層学習における重量減衰の役割が,古典的学習理論で研究される正規化効果と異なる点を強調する。マルチパスSGDで訓練された視覚タスクのディープネットワークにおいて、重み劣化がSGDの暗黙の正則化を促進する最適化力学をどのように修正するかを示す。
論文参考訳（メタデータ） (2023-10-06T17:58:21Z)
Generative Meta-Learning Robust Quality-Diversity Portfolio [0.0]
本稿では,ロバストなポートフォリオアンサンブルを最適化するメタラーニング手法を提案する。この方法は、深層生成モデルを用いて、多種多様な高品質のサブポートフォリオを生成し、アンサンブルポートフォリオを形成する。
論文参考訳（メタデータ） (2023-07-15T14:20:22Z)
PathProx: A Proximal Gradient Algorithm for Weight Decay Regularized Deep Neural Networks [25.114642281756495]
ウェイト崩壊(Weight decay)は、ディープラーニングにおいて最も広く使われている正規化形式の一つである。本稿では、勾配勾配勾配は、この目的に対して非効率なアルゴリズムであると主張している。 ReLUアクティベーションを持つニューラルネットワークの場合、重み劣化対象に対する解は異なる目的の解と等価である。
論文参考訳（メタデータ） (2022-10-06T17:22:40Z)
Meta-Causal Feature Learning for Out-of-Distribution Generalization [71.38239243414091]
本稿では,協調タスク生成モジュール (BTG) とメタ因果特徴学習モジュール (MCFL) を含む,バランス付きメタ因果学習器 (BMCL) を提案する。 BMCLは、分類のためのクラス不変の視覚領域を効果的に識別し、最先端の手法の性能を向上させるための一般的なフレームワークとして機能する。
論文参考訳（メタデータ） (2022-08-22T09:07:02Z)
Long-Tailed Recognition via Weight Balancing [66.03068252811993]
ナイーブトレーニングは、より高い精度で一般的なクラスに偏ったモデルを生成する。重みのバランス、L2-正規化、重みの崩壊、MaxNormの3つの手法について検討する。提案手法は,5つの標準ベンチマークにおける最先端の精度を実現する。
論文参考訳（メタデータ） (2022-03-27T03:26:31Z)
Model based Multi-agent Reinforcement Learning with Tensor Decompositions [52.575433758866936]
本稿では、CPランクの低いテンソルとして遷移関数と報酬関数をモデル化することにより、未探索の状態-作用対上の状態-作用空間の一般化を考察する。合成MDPの実験により、モデルに基づく強化学習アルゴリズムでテンソル分解を用いることで、真の遷移関数と報酬関数が実際に低ランクである場合、はるかに高速な収束が得られることが示された。
論文参考訳（メタデータ） (2021-10-27T15:36:25Z)
FixNorm: Dissecting Weight Decay for Training Deep Neural Networks [7.820667552233989]
本研究では,2つのメカニズムを直接制御するFixNormという新しいトレーニング手法を提案する。 ImageNet分類タスクでは、FixNormによるEfficientNet-B0のトレーニングは77.7%を達成し、元のベースラインを明確なマージンで上回る。
論文参考訳（メタデータ） (2021-03-29T05:41:56Z)
On the Overlooked Pitfalls of Weight Decay and How to Mitigate Them: A Gradient-Norm Perspective [90.39123717733334]
そこで本研究では,Shduled Weight Decay (SWD) 法と呼ばれる,減量のための最初の実用的なスケジューラを提案する。我々の実験は、SWDが実際に大きな勾配ノルムを緩和し、適応モーメント推定(Adam)の従来の定重崩壊戦略を著しく上回っていることも裏付けている。
論文参考訳（メタデータ） (2020-11-23T00:39:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。