論文の概要: Scale-Distribution Decoupling: Enabling Stable and Effective Training of Large Language Models
- arxiv url: http://arxiv.org/abs/2502.15499v1
- Date: Fri, 21 Feb 2025 14:49:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 16:09:48.053896
- Title: Scale-Distribution Decoupling: Enabling Stable and Effective Training of Large Language Models
- Title(参考訳): スケール分散デカップリング:安定度の実現と大規模言語モデルの効果的な訓練
- Authors: Ya Wang, Zhijian Zhuo, Yutao Zeng, Xun Zhou, Jian Yang, Xiaoqing Li,
- Abstract要約: 訓練安定性は、大規模言語モデル(LLM)の事前学習における永続的な課題である
完全連結層における重み行列のスケールと分布を明示的に分離し,トレーニングを安定させる手法として,SDD(Scale-Distribution Decoupling)を提案する。
- 参考スコア(独自算出の注目度): 21.16132396642158
- License:
- Abstract: Training stability is a persistent challenge in the pre-training of large language models (LLMs), particularly for architectures such as Post-Norm Transformers, which are prone to gradient explosion and dissipation. In this paper, we propose Scale-Distribution Decoupling (SDD), a novel approach that stabilizes training by explicitly decoupling the scale and distribution of the weight matrix in fully-connected layers. SDD applies a normalization mechanism to regulate activations and a learnable scaling vector to maintain well-conditioned gradients, effectively preventing $\textbf{gradient explosion and dissipation}$. This separation improves optimization efficiency, particularly in deep networks, by ensuring stable gradient propagation. Experimental results demonstrate that our method stabilizes training across various LLM architectures and outperforms existing techniques in different normalization configurations. Furthermore, the proposed method is lightweight and compatible with existing frameworks, making it a practical solution for stabilizing LLM training. Code is available at https://github.com/kaihemo/SDD.
- Abstract(参考訳): トレーニング安定性は、大規模言語モデル(LLM)の事前トレーニングにおいて永続的な課題である。
本稿では,完全連結層における重み行列のスケールと分布を明示的に分離し,トレーニングを安定させる手法として,SDD(Scale-Distribution Decoupling)を提案する。
SDDは、活性化を調節する正規化機構と、よく条件付けられた勾配を維持するための学習可能なスケーリングベクトルを適用し、$\textbf{gradient explosion and dissipation}$を効果的に防止する。
この分離により、特にディープネットワークにおける最適化効率が向上し、安定した勾配伝播が保証される。
実験により,本手法は様々なLLMアーキテクチャのトレーニングを安定化し,異なる正規化構成で既存技術より優れた性能を発揮することが示された。
さらに,提案手法は軽量であり,既存のフレームワークと互換性がある。
コードはhttps://github.com/kaihemo/SDD.comで入手できる。
関連論文リスト
- RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [95.32315448601241]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - EDiT: A Local-SGD-Based Efficient Distributed Training Method for Large Language Models [4.514681046629978]
本研究では,局所SGD手法をモデルシャーディング手法と組み合わせ,大規模トレーニング効率を向上させる革新的な分散トレーニング手法であるEDiTを提案する。
また、異種クラスタに対応するEDiTの完全非同期版であるA-EDiTについても紹介する。
実験により, EDiT/A-EDiTの優れた性能を示し, 分散LLMトレーニングのための堅牢なソリューションとして確立した。
論文 参考訳(メタデータ) (2024-12-10T06:08:24Z) - AdaRankGrad: Adaptive Gradient-Rank and Moments for Memory-Efficient LLMs Training and Fine-Tuning [9.51289606759621]
大規模言語モデル(LLM)の訓練と微調整には、メモリと計算要求に関する課題が伴う。
低ランク適応(LoRA)など、これらの課題に対処する様々な技術が開発されている。
トレーニングが進むにつれて、推定勾配のランクが徐々に低下する現象に着想を得た新しい手法を導入する。
論文 参考訳(メタデータ) (2024-10-23T13:53:26Z) - DLO: Dynamic Layer Operation for Efficient Vertical Scaling of LLMs [46.443316184807145]
変換器をベースとした大規模言語モデル(LLM)を垂直スケールする新しいアプローチである動的層演算(DLO)を導入する。
モデル幅の拡張に重点を置く従来のMixture-of-Experts(MoE)手法とは異なり,本手法はモデル深度を対象とし,様々な入力サンプルに対して層表現間で観測される冗長性に対処する。
実験結果から、DLOは元の非スケールモデルよりも優れるだけでなく、効率が大幅に向上した密に拡張されたモデルに匹敵する結果が得られることが示された。
論文 参考訳(メタデータ) (2024-07-03T18:34:08Z) - Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - Unifying Synergies between Self-supervised Learning and Dynamic
Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。
SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。
密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文 参考訳(メタデータ) (2023-01-22T17:12:58Z) - Optimization-Derived Learning with Essential Convergence Analysis of
Training and Hyper-training [52.39882976848064]
固定点反復に基づく一般化クラスノセルスキーマンスキースキーム(GKM)を基本ODLモジュールとして設計する。
GKMスキームでは、最適トレーニングとハイパートレーニング変数を同時に解くために、バイレベルメタ最適化(BMO)アルゴリズムフレームワークを構築している。
論文 参考訳(メタデータ) (2022-06-16T01:50:25Z) - Dynamic Collective Intelligence Learning: Finding Efficient Sparse Model
via Refined Gradients for Pruned Weights [31.68257673664519]
動的プルーニング法は, STE(Straight-Through-Estimator)を用いて, プルーニング重量の勾配を近似することにより, トレーニング中に多様なスペーサ性パターンを求める。
我々は,2組の重みから2つの前方経路を形成することにより,刈り上げ重みを更新するための洗練された勾配を導入する。
本稿では,両重み集合の集合的知性間の学習相乗効果を利用した新しい動的集団知能学習(DCIL)を提案する。
論文 参考訳(メタデータ) (2021-09-10T04:41:17Z) - Training Generative Adversarial Networks by Solving Ordinary
Differential Equations [54.23691425062034]
GANトレーニングによって引き起こされる連続時間ダイナミクスについて検討する。
この観点から、GANのトレーニングにおける不安定性は積分誤差から生じると仮定する。
本研究では,有名なODEソルバ(Runge-Kutta など)がトレーニングを安定化できるかどうかを実験的に検証する。
論文 参考訳(メタデータ) (2020-10-28T15:23:49Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Mode-Assisted Unsupervised Learning of Restricted Boltzmann Machines [7.960229223744695]
標準勾配更新とオフグラディエント方向を適切に組み合わせることで、従来の勾配法よりもトレーニングを劇的に改善することを示す。
モードトレーニングと呼ばれるこのアプローチは、収束相対エントロピー(KL分散)の低下に加えて、より高速なトレーニングと安定性を促進する。
我々が提案するモードトレーニングは、任意の勾配法と組み合わせて適用でき、より一般的なエネルギーベースのニューラルネットワーク構造に容易に拡張できるため、非常に多用途である。
論文 参考訳(メタデータ) (2020-01-15T21:12:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。