論文の概要: AlphaDecay: Module-wise Weight Decay for Heavy-Tailed Balancing in LLMs
- arxiv url: http://arxiv.org/abs/2506.14562v2
- Date: Sun, 22 Jun 2025 12:57:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 12:48:19.127693
- Title: AlphaDecay: Module-wise Weight Decay for Heavy-Tailed Balancing in LLMs
- Title(参考訳): AlphaDecay: LLMにおけるヘビーバランスのためのモジュール単位の軽量化
- Authors: Di He, Ajay Jaiswal, Songjun Tu, Li Shen, Ganzhao Yuan, Shiwei Liu, Lu Yin,
- Abstract要約: 重崩壊は、大規模言語モデル(LLM)を訓練するための標準正規化手法である
LLMの各モジュールに異なる重み付け強度を適応的に割り当てるAlphaDecayを導入する。
提案手法は, スペクトル特性のモジュールワイド差のバランスをとるために, 調整した重み付き崩壊割当を利用するため, 性能が向上する。
- 参考スコア(独自算出の注目度): 47.72624844278131
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weight decay is a standard regularization technique for training large language models (LLMs). While it is common to assign a uniform decay rate to every layer, this approach overlooks the structural diversity of LLMs and the varying spectral properties across modules. In this paper, we introduce AlphaDecay, a simple yet effective method that adaptively assigns different weight decay strengths to each module of an LLM. Our approach is guided by Heavy-Tailed Self-Regularization (HT-SR) theory, which analyzes the empirical spectral density (ESD) of weight correlation matrices to quantify "heavy-tailedness." Modules exhibiting more pronounced heavy-tailed ESDs, reflecting stronger feature learning, are assigned weaker decay, while modules with lighter-tailed spectra receive stronger decay. Our method leverages tailored weight decay assignments to balance the module-wise differences in spectral properties, leading to improved performance. Extensive pre-training tasks with various model sizes from 60M to 1B demonstrate that AlphaDecay achieves better perplexity and generalization than conventional uniform decay and other adaptive decay baselines. Our code is available at https://github.com/hed-ucas/AlphaDecay.
- Abstract(参考訳): 重崩壊は、大規模言語モデル(LLM)を訓練するための標準正規化手法である。
すべての層に均一な減衰率を割り当てることは一般的であるが、このアプローチはLLMの構造的多様性とモジュール間のスペクトル特性を無視する。
本稿では,LLMの各モジュールに異なる重み付け強度を適応的に割り当てる,単純で効果的な方法であるAlphaDecayを紹介する。
重み付き自己正則化(HT-SR)理論は,重み相関行列の実験的スペクトル密度(ESD)を分析し,重み付き自己正則性(heavy-tailedness)を定量化する手法である。
より顕著な重み付きESDを示すモジュールはより強い特徴学習を反映し、弱いスペクトルを持つモジュールはより強い減衰を受ける。
提案手法は, スペクトル特性のモジュールワイド差のバランスをとるために, 調整した重み付き崩壊割当を利用するため, 性能が向上する。
60M から 1B までの様々なモデルサイズを持つ広範囲な事前学習タスクは、AlphaDecay が従来の一様崩壊やその他の適応的崩壊ベースラインよりも、より複雑で一般化されたことを証明している。
私たちのコードはhttps://github.com/hed-ucas/AlphaDecay.comで利用可能です。
関連論文リスト
- AlphaPruning: Using Heavy-Tailed Self Regularization Theory for Improved Layer-wise Pruning of Large Language Models [94.82766517752418]
そこで我々は,AlphaPruningを提案する。このAlphaPruningは,より理論的に原理化された方法で,水平方向の空間比を割り振る。
以上よりAlphaPruning prunes LLaMA-7B to 80% sparsity while maintain well perplexity, marking a first in the literature on LLMs。
論文 参考訳(メタデータ) (2024-10-14T03:35:11Z) - From Low Rank Gradient Subspace Stabilization to Low-Rank Weights: Observations, Theories, and Applications [85.17672240603011]
大規模言語モデルにおける重み行列の非一様低ランク特性について検討する。
WeLore(Weight Low-Rank Projection)は、重み圧縮とメモリ効率の微調整を一体化したものである。
論文 参考訳(メタデータ) (2024-07-15T21:05:20Z) - Why Do We Need Weight Decay in Modern Deep Learning? [24.81634291051533]
重崩壊は、画像分類から大規模言語モデルまで、最先端の深層ネットワークを訓練するための技術である。
本研究では,現代深層学習における重量減衰の役割が,古典的学習理論で研究される正規化効果と異なる点を強調する。
マルチパスSGDで訓練された視覚タスクのディープネットワークにおいて、重み劣化がSGDの暗黙の正則化を促進する最適化力学をどのように修正するかを示す。
論文 参考訳(メタデータ) (2023-10-06T17:58:21Z) - Generative Meta-Learning Robust Quality-Diversity Portfolio [0.0]
本稿では,ロバストなポートフォリオアンサンブルを最適化するメタラーニング手法を提案する。
この方法は、深層生成モデルを用いて、多種多様な高品質のサブポートフォリオを生成し、アンサンブルポートフォリオを形成する。
論文 参考訳(メタデータ) (2023-07-15T14:20:22Z) - PathProx: A Proximal Gradient Algorithm for Weight Decay Regularized
Deep Neural Networks [25.114642281756495]
ウェイト崩壊(Weight decay)は、ディープラーニングにおいて最も広く使われている正規化形式の一つである。
本稿では、勾配勾配勾配は、この目的に対して非効率なアルゴリズムであると主張している。
ReLUアクティベーションを持つニューラルネットワークの場合、重み劣化対象に対する解は異なる目的の解と等価である。
論文 参考訳(メタデータ) (2022-10-06T17:22:40Z) - Meta-Causal Feature Learning for Out-of-Distribution Generalization [71.38239243414091]
本稿では,協調タスク生成モジュール (BTG) とメタ因果特徴学習モジュール (MCFL) を含む,バランス付きメタ因果学習器 (BMCL) を提案する。
BMCLは、分類のためのクラス不変の視覚領域を効果的に識別し、最先端の手法の性能を向上させるための一般的なフレームワークとして機能する。
論文 参考訳(メタデータ) (2022-08-22T09:07:02Z) - Long-Tailed Recognition via Weight Balancing [66.03068252811993]
ナイーブトレーニングは、より高い精度で一般的なクラスに偏ったモデルを生成する。
重みのバランス、L2-正規化、重みの崩壊、MaxNormの3つの手法について検討する。
提案手法は,5つの標準ベンチマークにおける最先端の精度を実現する。
論文 参考訳(メタデータ) (2022-03-27T03:26:31Z) - Model based Multi-agent Reinforcement Learning with Tensor
Decompositions [52.575433758866936]
本稿では、CPランクの低いテンソルとして遷移関数と報酬関数をモデル化することにより、未探索の状態-作用対上の状態-作用空間の一般化を考察する。
合成MDPの実験により、モデルに基づく強化学習アルゴリズムでテンソル分解を用いることで、真の遷移関数と報酬関数が実際に低ランクである場合、はるかに高速な収束が得られることが示された。
論文 参考訳(メタデータ) (2021-10-27T15:36:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。