論文の概要: Progressive Residual Warmup for Language Model Pretraining
- arxiv url: http://arxiv.org/abs/2603.05369v1
- Date: Thu, 05 Mar 2026 16:52:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.328286
- Title: Progressive Residual Warmup for Language Model Pretraining
- Title(参考訳): 言語モデル事前学習のためのプログレッシブ残差ワームアップ
- Authors: Tianhao Chen, Xin Xu, Lu Yin, Hao Chen, Yang Wang, Shizhe Diao, Can Yang,
- Abstract要約: 本稿では,言語モデル事前学習のためのプログレッシブ残留ワームアップ(ProRes)を提案する。
これは、各層の残余を0から1に徐々に温まるスカラーに乗じることで、"初期層が最初に学習する"という哲学を実装している。
このようにして、より深いレイヤは、学習に貢献する前に、初期のレイヤがより安定した状態に落ち着くのを待ちます。
- 参考スコア(独自算出の注目度): 25.393961764166207
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer architectures serve as the backbone for most modern Large Language Models, therefore their pretraining stability and convergence speed are of central concern. Motivated by the logical dependency of sequentially stacked layers, we propose Progressive Residual Warmup (ProRes) for language model pretraining. ProRes implements an "early layer learns first" philosophy by multiplying each layer's residual with a scalar that gradually warms up from 0 to 1, with deeper layers taking longer warmup steps. In this way, deeper layers wait for early layers to settle into a more stable regime before contributing to learning. We demonstrate the effectiveness of ProRes through pretraining experiments across various model scales, as well as normalization and initialization schemes. Comprehensive analysis shows that ProRes not only stabilizes pretraining but also introduces a unique optimization trajectory, leading to faster convergence, stronger generalization and better downstream performance. Our code is available at https://github.com/dandingsky/ProRes.
- Abstract(参考訳): トランスフォーマーアーキテクチャは、現代のほとんどの大規模言語モデルのバックボーンとして機能するため、事前訓練された安定性と収束速度が中心的な関心事である。
逐次的に積み重ねられたレイヤの論理的依存性を動機として,言語モデル事前学習のためのプログレッシブ残留ワームアップ(ProRes)を提案する。
ProResは、各レイヤの残余を0から1に徐々にウォームアップするスカラーに乗じることで、より深いレイヤがウォームアップステップを長くすることで、"早期に学習する"という哲学を実装している。
このようにして、より深いレイヤは、学習に貢献する前に、初期のレイヤがより安定した状態に落ち着くのを待ちます。
各種モデルスケールでの事前学習実験および正規化および初期化スキームによるProResの有効性を実証する。
包括的解析により、ProResは事前学習を安定化するだけでなく、一意の最適化軌道を導入し、より高速な収束、より強力な一般化、より優れた下流性能をもたらすことが示された。
私たちのコードはhttps://github.com/dandingsky/ProRes.comで公開されています。
関連論文リスト
- Drop-Muon: Update Less, Converge Faster [45.568312522631345]
完全なネットワーク更新は、理論上も実際上も、基本的に準最適であることを示す。
非ユークリッドランダム化プログレッシブトレーニング-Drop-Muonを導入する。
Drop-Muon がフルネットワーク Muon を一貫して上回っていることを実証的に実証する。
論文 参考訳(メタデータ) (2025-10-02T17:28:55Z) - LayerLock: Non-collapsing Representation Learning with Progressive Freezing [74.78054305471325]
本稿では、自己教師付き視覚表現学習のためのシンプルで効果的なアプローチであるLayerLockを紹介する。
ビデオマスク自動符号化(MAE)モデルのトレーニング中、ViT層は深さの順に収束する。
我々は,この観測を,明示的なスケジュールに従ってモデルを段階的に凍結することにより,標準MAEの高速化に活用できることを示す。
論文 参考訳(メタデータ) (2025-09-12T11:32:51Z) - Efficient Generative Model Training via Embedded Representation Warmup [12.485320863366411]
生成モデルは基本的な課題に直面し、高いレベルのセマンティック概念と低レベルの合成の詳細を同時に学ばなければならない。
基本的2相学習フレームワークである組込み表現ワームアップを提案する。
このフレームワークは,REPAのような単一位相法と比較して,FID=1.41に達するために350エポックで11.5$times$の高速化を実現している。
論文 参考訳(メタデータ) (2025-04-14T12:43:17Z) - LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - LayerSkip: Enabling Early Exit Inference and Self-Speculative Decoding [13.747101397628887]
大規模言語モデル(LLM)の高速化のためのエンドツーエンドのソリューションを提案する。
また,すべての変圧器層が同じ出口を共有できる早期の出口損失を,早期の層で低落率,後期の層で高落率,早期の出口損失に適用した。
このトレーニングレシピは、モデルに補助的なレイヤやモジュールを追加することなく、初期のレイヤでの早期退避の精度を高めることを示す。
論文 参考訳(メタデータ) (2024-04-25T16:20:23Z) - Entropy Guided Extrapolative Decoding to Improve Factuality in Large Language Models [55.45444773200529]
大きな言語モデル(LLM)は印象的な自然言語能力を示すが、幻覚に苦しむ。
最近の研究は推論時の事実性を改善するための復号化技術に焦点を当てている。
論文 参考訳(メタデータ) (2024-04-14T19:45:35Z) - Efficient Stagewise Pretraining via Progressive Subnetworks [53.00045381931778]
一般的な見方では、レイヤのドロップのような段階的なドロップ戦略は、スタック方式のアプローチと比べて効果がない。
本稿では, 適切な設計で, 戦略の廃止は, 積み重ね手法よりも競争力があることを示すことによって, この概念に挑戦する。
本稿では,各ステップでランダムサブネットワークのみを選択し,訓練し,段階的に拡大するランダムパートトレーニング(RAPTR)を提案する。
論文 参考訳(メタデータ) (2024-02-08T18:49:09Z) - Towards Efficient Fine-tuning of Pre-trained Code Models: An
Experimental Study and Beyond [52.656743602538825]
微調整された事前訓練されたコードモデルは、大きな計算コストを発生させる。
我々は、レイヤーワイドで事前訓練された表現と、微調整中に符号化されたコード知識に何が起こるのかを実験的に検討する。
本稿では,レイヤ凍結により事前学習したコードモデルを効率的に微調整するTellyを提案する。
論文 参考訳(メタデータ) (2023-04-11T13:34:13Z) - Improving Stability of Fine-Tuning Pretrained Language Models via
Component-Wise Gradient Norm Clipping [21.51612327905384]
大規模事前学習言語モデル(PLM)に対する微調整は、多くの最先端の結果を確立している。
従来の研究は、PLMの最上層における破滅的な忘れの問題による不安定さに起因していた。
そこで本研究では,異なる成分の収束速度を調整するための簡易な成分勾配標準クリッピング法を提案する。
論文 参考訳(メタデータ) (2022-10-19T06:44:20Z) - Adversarial Self-Attention for Language Understanding [89.265747130584]
本稿では,textitAdversarial Self-Attention Mechanism (ASA)を提案する。
ASAはトランスフォーマーの注意を逆向きに再構築し、汚染されたモデル構造からのモデルトレーニングを促進する。
微調整の場合、ASAを動力とするモデルは、一般化とロバスト性の両方を考慮すると、単純モデルよりも常に大きなマージンで勝る。
論文 参考訳(メタデータ) (2022-06-25T09:18:10Z) - GradInit: Learning to Initialize Neural Networks for Stable and
Efficient Training [59.160154997555956]
ニューラルネットワークを初期化するための自動化およびアーキテクチャ手法であるgradinitを提案する。
各ネットワーク層の分散は、SGDまたはAdamの単一ステップが最小の損失値をもたらすように調整される。
また、学習率のウォームアップを伴わずに、オリジナルのPost-LN Transformerを機械翻訳用にトレーニングすることもできる。
論文 参考訳(メタデータ) (2021-02-16T11:45:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。