論文の概要: Methods of improving LLM training stability
- arxiv url: http://arxiv.org/abs/2410.16682v1
- Date: Tue, 22 Oct 2024 04:27:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:30:12.811047
- Title: Methods of improving LLM training stability
- Title(参考訳): LLMトレーニングの安定性向上手法
- Authors: Oleg Rybakov, Mike Chrzanowski, Peter Dykas, Jinze Xue, Ben Lanir,
- Abstract要約: 学習速度が高いと、全ての線形層出力のL2ノルムはトレーニングステップごとに成長し、モデルが分岐する。
この2つの手法により,QK層正規化のみに基づくアプローチと比較して,学習率を1.5倍に向上できることを示す。
- 参考スコア(独自算出の注目度): 3.3790712267402374
- License:
- Abstract: Training stability of large language models(LLMs) is an important research topic. Reproducing training instabilities can be costly, so we use a small language model with 830M parameters and experiment with higher learning rates to force models to diverge. One of the sources of training instability is the growth of logits in attention layers. We extend the focus of the previous work and look not only at the magnitude of the logits but at all outputs of linear layers in the Transformer block. We observe that with a high learning rate the L2 norm of all linear layer outputs can grow with each training step and the model diverges. Specifically we observe that QKV, Proj and FC2 layers have the largest growth of the output magnitude. This prompts us to explore several options: 1) apply layer normalization not only after QK layers but also after Proj and FC2 layers too; 2) apply layer normalization after the QKV layer (and remove pre normalization). 3) apply QK layer normalization together with softmax capping. We show that with the last two methods we can increase learning rate by 1.5x (without model divergence) in comparison to an approach based on QK layer normalization only. Also we observe significant perplexity improvements for all three methods in comparison to the baseline model.
- Abstract(参考訳): 大規模言語モデル(LLM)の訓練安定性は重要な研究課題である。
トレーニングの不安定性の再現にはコストがかかるため、830万のパラメータを持つ小さな言語モデルを使用し、より高い学習率でモデルに分岐を強制する実験を行う。
トレーニング不安定性の源の1つは、注意層におけるロジットの成長である。
我々は、以前の作業の焦点を拡張し、ロジットの大きさだけでなく、トランスフォーマーブロック内のすべての線形レイヤの出力についても検討する。
学習速度が高いと、全ての線形層出力のL2ノルムはトレーニングステップごとに成長し、モデルが分岐する。
具体的には,QKV,Proj,FC2層が最も大きく成長していることを示す。
これにより、いくつかの選択肢を探ることができます。
1)QK層に限らず,Proj,FC2層にも準用する。
2) QKV層の後, 層正規化を施し, プレ正規化を除去した。
3) ソフトマックスキャッピングとともにQK層正規化を適用する。
この2つの手法により,QK層正規化のみに基づくアプローチと比較して,学習率を1.5倍に向上できることを示す。
また,ベースラインモデルと比較して,3つの手法の難易度を著しく改善した。
関連論文リスト
- TrAct: Making First-layer Pre-Activations Trainable [65.40281259525578]
視覚モデルの第1層の訓練について検討し、画素値と更新等級の関係を明確にする。
コントラストの低い画像は、高いコントラストのイメージよりも学習への影響が小さい。
非常に明るい、または非常に暗い画像は、適度な明るさのイメージよりも重量に強い影響を与える。
論文 参考訳(メタデータ) (2024-10-31T14:25:55Z) - LayerSkip: Enabling Early Exit Inference and Self-Speculative Decoding [13.747101397628887]
大規模言語モデル(LLM)の高速化のためのエンドツーエンドのソリューションを提案する。
また,すべての変圧器層が同じ出口を共有できる早期の出口損失を,早期の層で低落率,後期の層で高落率,早期の出口損失に適用した。
このトレーニングレシピは、モデルに補助的なレイヤやモジュールを追加することなく、初期のレイヤでの早期退避の精度を高めることを示す。
論文 参考訳(メタデータ) (2024-04-25T16:20:23Z) - Layer-wise Linear Mode Connectivity [52.6945036534469]
ニューラルネットワークパラメータの平均化は、2つの独立したモデルの知識の直感的な方法である。
フェデレートラーニングにおいて最も顕著に用いられている。
私たちは、単一グループやグループを平均化するモデルの性能を分析します。
論文 参考訳(メタデータ) (2023-07-13T09:39:10Z) - Layer Grafted Pre-training: Bridging Contrastive Learning And Masked
Image Modeling For Label-Efficient Representations [130.05189514598996]
Mask Image Modeling (MIM) と Contrastive Learning (CL) は、自己超越が優れた表現を学ぶのに強力であることを示した。
本稿では,CLとMIMの損失の簡易な共同最適化が,矛盾する勾配方向を導いた経験的観察を行う。
実験により,MIMとCLは下層と上層にそれぞれ適していることがわかった。
初期のレイヤはまず1つのMIM損失の下でトレーニングされ、その上に、後者のレイヤは別のCL損失の下でトレーニングされ続けます。
論文 参考訳(メタデータ) (2023-02-27T20:52:10Z) - Improved Convergence Guarantees for Shallow Neural Networks [91.3755431537592]
勾配降下法により訓練された深度2ニューラルネットの収束度を世界最小とする。
我々のモデルには、二次損失関数による回帰、完全連結フィードフォワードアーキテクチャ、RelUアクティベーション、ガウスデータインスタンス、逆ラベルといった特徴がある。
彼らは、少なくとも我々のモデルでは、収束現象がNTK体制をはるかに超越していることを強く示唆している」。
論文 参考訳(メタデータ) (2022-12-05T14:47:52Z) - NormFormer: Improved Transformer Pretraining with Extra Normalization [31.250781670447257]
NormFormerアーキテクチャは、各レイヤに3つの正規化操作を追加する。
余剰演算は無視可能な計算コストを発生させる。
マスク付き言語モデリングでは、NormFormerは微調整されたGLUEのパフォーマンスを1.9%改善した。
論文 参考訳(メタデータ) (2021-10-18T16:47:45Z) - LV-BERT: Exploiting Layer Variety for BERT [85.27287501885807]
我々は,事前学習モデルに有益である層型集合に畳み込みを導入する。
次に、事前学習による進化的アルゴリズムを採用し、最適なアーキテクチャを求める。
提案手法により得られたLV-BERTモデルは,様々な下流タスクにおいてBERTとその変種より優れる。
論文 参考訳(メタデータ) (2021-06-22T13:20:14Z) - Continual Learning in Deep Networks: an Analysis of the Last Layer [7.405588182540833]
出力層における破滅的忘れ込みには,(1)重み付け,(2)干渉,(3)投射ドリフトの3因子が影響した。
最適な出力層タイプは、データ分散のドリフトや利用可能なデータ量に依存することを示す。
論文 参考訳(メタデータ) (2021-06-03T13:41:29Z) - Training with Multi-Layer Embeddings for Model Reduction [0.9046327456472286]
複数層埋め込み学習アーキテクチャを導入し, 一連の線形層を通して埋め込みを訓練する。
その結果,メモリフットプリントの精度が向上し,dを4~8倍削減できることがわかった。
論文 参考訳(メタデータ) (2020-06-10T02:47:40Z) - Lipreading using Temporal Convolutional Networks [57.41253104365274]
現在の単語認識モデルは,残差ネットワークと双方向Gated Recurrent Unit層で構成されている。
このモデルの限界に対処し、その性能をさらに向上させる変更を提案する。
提案モデルでは,これらのデータセットにおいてそれぞれ1.2%と3.2%の絶対的な改善が得られた。
論文 参考訳(メタデータ) (2020-01-23T17:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。