Fugu-MT 論文翻訳(概要): Scale-Distribution Decoupling: Enabling Stable and Effective Training of Large Language Models

論文の概要: Scale-Distribution Decoupling: Enabling Stable and Effective Training of Large Language Models

arxiv url: http://arxiv.org/abs/2502.15499v1
Date: Fri, 21 Feb 2025 14:49:34 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-24 21:37:39.201969
Title: Scale-Distribution Decoupling: Enabling Stable and Effective Training of Large Language Models
Title（参考訳）: スケール分散デカップリング:安定度の実現と大規模言語モデルの効果的な訓練
Authors: Ya Wang, Zhijian Zhuo, Yutao Zeng, Xun Zhou, Jian Yang, Xiaoqing Li,
Abstract要約: 訓練安定性は、大規模言語モデル(LLM)の事前学習における永続的な課題である完全連結層における重み行列のスケールと分布を明示的に分離し,トレーニングを安定させる手法として,SDD(Scale-Distribution Decoupling)を提案する。
参考スコア（独自算出の注目度）: 21.16132396642158
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Training stability is a persistent challenge in the pre-training of large language models (LLMs), particularly for architectures such as Post-Norm Transformers, which are prone to gradient explosion and dissipation. In this paper, we propose Scale-Distribution Decoupling (SDD), a novel approach that stabilizes training by explicitly decoupling the scale and distribution of the weight matrix in fully-connected layers. SDD applies a normalization mechanism to regulate activations and a learnable scaling vector to maintain well-conditioned gradients, effectively preventing $\textbf{gradient explosion and dissipation}$. This separation improves optimization efficiency, particularly in deep networks, by ensuring stable gradient propagation. Experimental results demonstrate that our method stabilizes training across various LLM architectures and outperforms existing techniques in different normalization configurations. Furthermore, the proposed method is lightweight and compatible with existing frameworks, making it a practical solution for stabilizing LLM training. Code is available at https://github.com/kaihemo/SDD.
Abstract（参考訳）: トレーニング安定性は、大規模言語モデル(LLM)の事前トレーニングにおいて永続的な課題である。本稿では,完全連結層における重み行列のスケールと分布を明示的に分離し,トレーニングを安定させる手法として,SDD(Scale-Distribution Decoupling)を提案する。 SDDは、活性化を調節する正規化機構と、よく条件付けられた勾配を維持するための学習可能なスケーリングベクトルを適用し、$\textbf{gradient explosion and dissipation}$を効果的に防止する。この分離により、特にディープネットワークにおける最適化効率が向上し、安定した勾配伝播が保証される。実験により,本手法は様々なLLMアーキテクチャのトレーニングを安定化し,異なる正規化構成で既存技術より優れた性能を発揮することが示された。さらに,提案手法は軽量であり,既存のフレームワークと互換性がある。コードはhttps://github.com/kaihemo/SDD.comで入手できる。

関連論文リスト

LARGO: Low-Rank Regulated Gradient Projection for Robust Parameter Efficient Fine-Tuning [39.56217775141507]
Low-rAnk Regulated Gradient Projection (LARGO)アルゴリズムは、動的制約を低ランク適応法に統合する。 LARGOは、ドメイン内および配布外のシナリオで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-06-14T08:19:11Z)
Exploring Magnitude Preservation and Rotation Modulation in Diffusion Transformers [5.187307904567701]
正規化レイヤを使わずにトレーニングを安定化する等級保存設計を提案する。活性化マグニチュードを維持するという目標により、回転変調も導入する。また,FIDスコアを$sim$12.8%削減した。
論文参考訳（メタデータ） (2025-05-25T12:25:50Z)
Optimizing ML Training with Metagradient Descent [69.89631748402377]
モデルトレーニングによる勾配というメタグラディエントを,大規模に効率的に計算するアルゴリズムを導入する。次に、メタグラディエントを用いた効果的な最適化を可能にする「滑らかなモデルトレーニング」フレームワークを導入する。
論文参考訳（メタデータ） (2025-03-17T22:18:24Z)
LORENZA: Enhancing Generalization in Low-Rank Gradient LLM Training via Efficient Zeroth-Order Adaptive SAM [13.180761892449736]
大規模言語モデル(LLM)のためのロバストパラメータ効率細調整法(PEFT)について検討する。我々はAdam と Sharpness-Aware Minimization (SAM) を組み合わせた AdaZo-SAM という,計算効率のよい新しいフレームワークを提案する。また,AdaZo-SAMのメモリ効率向上版であるLORENZAという低ランク勾配最適化手法を設計した。
論文参考訳（メタデータ） (2025-02-26T21:30:34Z)
RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [95.32315448601241]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。 RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文参考訳（メタデータ） (2025-02-13T06:44:33Z)
EDiT: A Local-SGD-Based Efficient Distributed Training Method for Large Language Models [4.514681046629978]
本研究では,局所SGD手法をモデルシャーディング手法と組み合わせ,大規模トレーニング効率を向上させる革新的な分散トレーニング手法であるEDiTを提案する。また、異種クラスタに対応するEDiTの完全非同期版であるA-EDiTについても紹介する。実験により, EDiT/A-EDiTの優れた性能を示し, 分散LLMトレーニングのための堅牢なソリューションとして確立した。
論文参考訳（メタデータ） (2024-12-10T06:08:24Z)
AdaRankGrad: Adaptive Gradient-Rank and Moments for Memory-Efficient LLMs Training and Fine-Tuning [9.51289606759621]
大規模言語モデル(LLM)の訓練と微調整には、メモリと計算要求に関する課題が伴う。低ランク適応(LoRA)など、これらの課題に対処する様々な技術が開発されている。トレーニングが進むにつれて、推定勾配のランクが徐々に低下する現象に着想を得た新しい手法を導入する。
論文参考訳（メタデータ） (2024-10-23T13:53:26Z)
DLO: Dynamic Layer Operation for Efficient Vertical Scaling of LLMs [46.443316184807145]
変換器をベースとした大規模言語モデル(LLM)を垂直スケールする新しいアプローチである動的層演算(DLO)を導入する。モデル幅の拡張に重点を置く従来のMixture-of-Experts(MoE)手法とは異なり,本手法はモデル深度を対象とし,様々な入力サンプルに対して層表現間で観測される冗長性に対処する。実験結果から、DLOは元の非スケールモデルよりも優れるだけでなく、効率が大幅に向上した密に拡張されたモデルに匹敵する結果が得られることが示された。
論文参考訳（メタデータ） (2024-07-03T18:34:08Z)
Unifying Synergies between Self-supervised Learning and Dynamic Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。 SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文参考訳（メタデータ） (2023-01-22T17:12:58Z)
Optimization-Derived Learning with Essential Convergence Analysis of Training and Hyper-training [52.39882976848064]
固定点反復に基づく一般化クラスノセルスキーマンスキースキーム(GKM)を基本ODLモジュールとして設計する。 GKMスキームでは、最適トレーニングとハイパートレーニング変数を同時に解くために、バイレベルメタ最適化(BMO)アルゴリズムフレームワークを構築している。
論文参考訳（メタデータ） (2022-06-16T01:50:25Z)
Training Generative Adversarial Networks by Solving Ordinary Differential Equations [54.23691425062034]
GANトレーニングによって引き起こされる連続時間ダイナミクスについて検討する。この観点から、GANのトレーニングにおける不安定性は積分誤差から生じると仮定する。本研究では,有名なODEソルバ(Runge-Kutta など)がトレーニングを安定化できるかどうかを実験的に検証する。
論文参考訳（メタデータ） (2020-10-28T15:23:49Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)
Mode-Assisted Unsupervised Learning of Restricted Boltzmann Machines [7.960229223744695]
標準勾配更新とオフグラディエント方向を適切に組み合わせることで、従来の勾配法よりもトレーニングを劇的に改善することを示す。モードトレーニングと呼ばれるこのアプローチは、収束相対エントロピー(KL分散)の低下に加えて、より高速なトレーニングと安定性を促進する。我々が提案するモードトレーニングは、任意の勾配法と組み合わせて適用でき、より一般的なエネルギーベースのニューラルネットワーク構造に容易に拡張できるため、非常に多用途である。
論文参考訳（メタデータ） (2020-01-15T21:12:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。