論文の概要: Mix-LN: Unleashing the Power of Deeper Layers by Combining Pre-LN and Post-LN
- arxiv url: http://arxiv.org/abs/2412.13795v1
- Date: Wed, 18 Dec 2024 12:39:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 16:48:54.730875
- Title: Mix-LN: Unleashing the Power of Deeper Layers by Combining Pre-LN and Post-LN
- Title(参考訳): Mix-LN: Pre-LNとPost-LNを組み合わせたディープレイヤのパワー解放
- Authors: Pengxiang Li, Lu Yin, Shiwei Liu,
- Abstract要約: Mix-LNは、Pre-LNとPost-LNの強度を同じモデルで組み合わせた新しい正規化手法である。
70Mから7Bまでの様々なモデルサイズの実験では、Mix-LNはPre-LNとPost-LNの両方で一貫して優れていた。
- 参考スコア(独自算出の注目度): 19.776151399951672
- License:
- Abstract: Large Language Models (LLMs) have achieved remarkable success, yet recent findings reveal that their deeper layers often contribute minimally and can be pruned without affecting overall performance. While some view this as an opportunity for model compression, we identify it as a training shortfall rooted in the widespread use of Pre-Layer Normalization (Pre-LN). We demonstrate that Pre-LN, commonly employed in models like GPT and LLaMA, leads to diminished gradient norms in its deeper layers, reducing their effectiveness. In contrast, Post-Layer Normalization (Post-LN) preserves larger gradient norms in deeper layers but suffers from vanishing gradients in earlier layers. To address this, we introduce Mix-LN, a novel normalization technique that combines the strengths of Pre-LN and Post-LN within the same model. Mix-LN applies Post-LN to the earlier layers and Pre-LN to the deeper layers, ensuring more uniform gradients across layers. This allows all parts of the network--both shallow and deep layers--to contribute effectively to training. Extensive experiments with various model sizes from 70M to 7B demonstrate that Mix-LN consistently outperforms both Pre-LN and Post-LN, promoting more balanced, healthier gradient norms throughout the network, and enhancing the overall quality of LLM pre-training. Furthermore, we demonstrate that models pre-trained with Mix-LN learn better compared to those using Pre-LN or Post-LN during supervised fine-tuning (SFT) and reinforcement learning from human feedback (RLHF), highlighting the critical importance of high-quality deep layers. By effectively addressing the inefficiencies of deep layers in current LLMs, Mix-LN unlocks their potential, enhancing model capacity without increasing model size. Our code is available at https://github.com/pixeli99/MixLN.
- Abstract(参考訳): 大きな言語モデル(LLM)は目覚ましい成功を収めていますが、最近の発見では、より深いレイヤが最小限に寄与することが多く、全体的なパフォーマンスに影響を与えることなく刈り取られることが分かりました。
これをモデル圧縮の機会と見なす人もいるが、プレ層正規化(Pre-LN)の普及に根ざしたトレーニング不足として認識している。
GPTやLLaMAのようなモデルで一般的に使用されるPre-LNは、より深い層において勾配ノルムが低下し、その効果が低下することを示した。
これとは対照的に、Post-Layer Normalization (Post-LN) はより深い層における大きな勾配ノルムを保っているが、以前の層での勾配の消失に悩まされている。
そこで本研究では,Pre-LNとPost-LNの長所を同一モデルで組み合わせた新しい正規化手法であるMix-LNを紹介する。
Mix-LNは、Post-LNを以前のレイヤに適用し、Pre-LNをより深いレイヤに適用し、レイヤ間のより均一な勾配を保証する。
これにより、ネットワークのすべての部分 — 浅い層と深い層 — が、トレーニングに効果的に貢献することができます。
70Mから7Bまでの様々なモデルサイズによる大規模な実験により、Mix-LNはPre-LNとPost-LNの両方を一貫して上回り、ネットワーク全体のよりバランスよく、より健全な勾配規範を促進し、LLM事前学習の全体的な品質を高めることが示されている。
さらに、教師付き微調整(SFT)および人間フィードバックからの強化学習(RLHF)において、Pre-LNやPost-LNと比較して、Mix-LNで事前学習したモデルは、高品質の深層の重要性を強調した。
現在のLLMにおけるディープレイヤの非効率性に効果的に対処することで、Mix-LNはモデルサイズを増大させることなくモデルキャパシティを向上させることができる。
私たちのコードはhttps://github.com/pixeli99/MixLN.comで利用可能です。
関連論文リスト
- LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - The Curse of Depth in Large Language Models [28.37870372690079]
本稿では,最近のLarge Language Models(LLMs)における近年の観察に注目し,説明し,対処する概念であるCurse of Depthを紹介する。
この現象は、Llama、Mistral、DeepSeek、QwenといったLLMの最も人気のあるファミリーにまたがって初めて確認した。
実験の結果, モデルサイズを130Mから1Bに分散したLayerNorm Scalingは, Pre-LNと比較して, LLM事前学習性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2025-02-09T07:03:36Z) - Peri-LN: Revisiting Layer Normalization in the Transformer Architecture [57.08322913112157]
Pre-LNとPost-LNは、大規模なトレーニングの制限にもかかわらず、長い間標準のプラクティスを支配してきた。
いくつかのオープンソースの大規模モデルは、最近、多くの説明なしに第3の戦略を静かに採用し始めた。
Peri-LNは、よりバランスの取れた分散成長、より安定な勾配流、収束安定性を実現する。
論文 参考訳(メタデータ) (2025-02-04T21:29:47Z) - AlphaPruning: Using Heavy-Tailed Self Regularization Theory for Improved Layer-wise Pruning of Large Language Models [94.82766517752418]
そこで我々は,AlphaPruningを提案する。このAlphaPruningは,より理論的に原理化された方法で,水平方向の空間比を割り振る。
以上よりAlphaPruning prunes LLaMA-7B to 80% sparsity while maintain well perplexity, marking a first in the literature on LLMs。
論文 参考訳(メタデータ) (2024-10-14T03:35:11Z) - On the Nonlinearity of Layer Normalization [5.0464797863553414]
本稿では,LN-Netと呼ばれる線形およびLN変換を階層的に構成したネットワークの表現能力について検討する。
各層に3つのニューロンしか持たないLN-Netと$O(m)$ LN層が正しく分類できることを示す。
論文 参考訳(メタデータ) (2024-06-03T12:11:34Z) - DoLa: Decoding by Contrasting Layers Improves Factuality in Large
Language Models [79.01926242857613]
大型言語モデル(LLM)は幻覚を起こす傾向があり、事前訓練中に見られる事実から逸脱した内容を生成する。
事前学習したLLMによる幻覚を低減するための簡単な復号法を提案する。
コントラスティング・レイヤ(DoLa)アプローチによるこのデコーディングは,事実知識をよりよく提示し,誤った事実の生成を減らすことができる。
論文 参考訳(メタデータ) (2023-09-07T17:45:31Z) - Understanding the Role of Layer Normalization in Label-Skewed Federated
Learning [15.19762600396105]
階層正規化(Layer normalization, LN)は、特に基礎モデルの時代に広く採用されているディープラーニング技術である。
本研究では,フェデレート学習における階層正規化とラベルシフト問題との深い関係を明らかにする。
その結果,FNは学習速度の選択に頑健でありながら,FLの収束性を大幅に向上させる上で,LN内の必須成分であることが確認された。
論文 参考訳(メタデータ) (2023-08-18T13:57:04Z) - ResiDual: Transformer with Dual Residual Connections [106.38073506751003]
広く使われている2つの変種は、Post-Layer-Normalization (Post-LN)とPre-Layer-Normalization (Pre-LN)である。
Post-LNは、深層トランスフォーマーのトレーニングを妨げる勾配消滅問題を引き起こし、Pre-LNはモデルキャパシティを制限する表現崩壊問題を引き起こす。
本稿では,PPLN(Pre-Post-LN)を用いた新しいトランスフォーマーアーキテクチャResiDualを提案する。
論文 参考訳(メタデータ) (2023-04-28T12:19:47Z) - B2T Connection: Serving Stability and Performance in Deep Transformers [40.44674210101826]
最近のトランスフォーマーは、ディープトランスフォーマーを備えたPost-LNでは、トレーニングが不安定で、役に立たないモデルになるため、Pre-LNになる傾向にある。
Post-LNは比較的浅いトランスフォーマーにおいて、Pre-LNよりも一貫して優れたパフォーマンスを実現している。
本稿では,Post-LNの簡易な修正により,高い安定性と効果的なトレーニングを両立できる手法を提案する。
論文 参考訳(メタデータ) (2022-06-01T08:43:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。