論文の概要: Initialization of Large Language Models via Reparameterization to Mitigate Loss Spikes
- arxiv url: http://arxiv.org/abs/2410.05052v1
- Date: Mon, 07 Oct 2024 14:09:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 13:38:43.340070
- Title: Initialization of Large Language Models via Reparameterization to Mitigate Loss Spikes
- Title(参考訳): 損失スパイク軽減のためのパラメータ化による大規模言語モデルの初期化
- Authors: Kosuke Nishida, Kyosuke Nishida, Kuniko Saito,
- Abstract要約: パラメータのノルムの非均一性は損失スパイクの原因の1つである。
ニューラルネットワークのトレーニングでは、階層全体にわたって勾配のスケールを一定に保つ必要がある。
- 参考スコア(独自算出の注目度): 18.12700358872208
- License:
- Abstract: Loss spikes, a phenomenon in which the loss value diverges suddenly, is a fundamental issue in the pre-training of large language models. This paper supposes that the non-uniformity of the norm of the parameters is one of the causes of loss spikes. Here, in training of neural networks, the scale of the gradients is required to be kept constant throughout the layers to avoid the vanishing and exploding gradients problem. However, to meet these requirements in the Transformer model, the norm of the model parameters must be non-uniform, and thus, parameters whose norm is smaller are more sensitive to the parameter update. To address this issue, we propose a novel technique, weight scaling as reparameterization (WeSaR). WeSaR introduces a gate parameter per parameter matrix and adjusts it to the value satisfying the requirements. Because of the gate parameter, WeSaR sets the norm of the original parameters uniformly, which results in stable training. Experimental results with the Transformer decoders consisting of 130 million, 1.3 billion, and 13 billion parameters showed that WeSaR stabilizes and accelerates training and that it outperformed compared methods including popular initialization methods.
- Abstract(参考訳): ロススパイク(ロススパイク)は、損失値が突然分岐する現象であり、大きな言語モデルの事前学習における根本的な問題である。
本稿では、パラメータのノルムの不均一性が損失スパイクの原因の1つであると仮定する。
ここでは、ニューラルネットワークのトレーニングでは、勾配の消失と爆発を避けるために、階層全体で勾配のスケールを一定に保つ必要がある。
しかし、トランスフォーマーモデルにおけるこれらの要件を満たすためには、モデルパラメータのノルムは非一様でなければならないため、ノルムが小さいパラメータはパラメータの更新に対してより敏感である。
この問題に対処するために,リパラメトリゼーション(WeSaR)としてのウェイトスケーリングという新しい手法を提案する。
WeSaRはパラメータ行列ごとにゲートパラメータを導入し、要求を満たす値に調整する。
ゲートパラメータのため、WeSaRは元のパラメータのノルムを均一に設定し、安定したトレーニングを行う。
1億3000万、13億、13億のパラメータからなるTransformerデコーダによる実験の結果、WeSaRはトレーニングを安定させ、加速し、一般的な初期化手法を含む比較手法よりも優れていた。
関連論文リスト
- Straightforward Layer-wise Pruning for More Efficient Visual Adaptation [0.0]
そこで本研究では,PETL転送モデルに対するSLSと呼ばれるStraightforward層ワイドプルーニング手法を提案する。
本研究は, プレニング指標の保存に焦点をあてたレイヤワイドプルーニングが, ストレージ容量の懸念に対処することを明らかにする。
論文 参考訳(メタデータ) (2024-07-19T14:10:35Z) - Scaling Exponents Across Parameterizations and Optimizers [94.54718325264218]
本稿では,先行研究における重要な仮定を考察し,パラメータ化の新たな視点を提案する。
私たちの経験的調査には、3つの組み合わせでトレーニングされた数万のモデルが含まれています。
最高の学習率のスケーリング基準は、以前の作業の仮定から除外されることがよくあります。
論文 参考訳(メタデータ) (2024-07-08T12:32:51Z) - Few-Shot Class Incremental Learning via Robust Transformer Approach [16.590193619691416]
Few-Shot Class-Incremental Learningは,データ不足の問題にモデルが直面しているクラス増分学習問題の拡張を提示する。
この問題は、最近のすべての研究が、準最適に実行される畳み込みニューラルネットワークの上に構築されているため、未解決の問題のままである。
本稿では,コンパクト畳み込み変換器を用いたロバスト変換器を提案する。
論文 参考訳(メタデータ) (2024-05-08T03:35:52Z) - Data-freeWeight Compress and Denoise for Large Language Models [101.53420111286952]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。
キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文 参考訳(メタデータ) (2024-02-26T05:51:47Z) - Identifying overparameterization in Quantum Circuit Born Machines [1.7259898169307613]
量子回路Bornマシンのオーバーパラメータ化遷移の開始について,非逆勾配法を用いて学習した生成モデルについて検討する。
我々の結果は、これらのモデルのトレーニング可能性を完全に理解することは、未解決の問題であることを示している。
論文 参考訳(メタデータ) (2023-07-06T21:05:22Z) - No Parameters Left Behind: Sensitivity Guided Adaptive Learning Rate for
Training Large Transformer Models [132.90062129639705]
本稿では,全てのパラメータを十分に訓練するための新しいトレーニング戦略を提案する。
感度の低いパラメータは冗長であり、学習率を高めて適合性を改善する。
対照的に、高い感度を持つパラメータを十分に訓練し、学習率を下げて正規化することで、さらなる過度なオーバーフィッティングを防止する。
論文 参考訳(メタデータ) (2022-02-06T00:22:28Z) - Regularized Nonlinear Regression for Simultaneously Selecting and
Estimating Key Model Parameters [1.6122433144430324]
システム同定では、限られた観測値を用いてモデルのパラメータを推定すると、識別性が低下する。
感度パラメータをキーモデルパラメータとして同時に選択および推定し、残りのパラメータを典型的な値の集合に固定する新しい方法を提案する。
論文 参考訳(メタデータ) (2021-04-23T06:17:57Z) - GradInit: Learning to Initialize Neural Networks for Stable and
Efficient Training [59.160154997555956]
ニューラルネットワークを初期化するための自動化およびアーキテクチャ手法であるgradinitを提案する。
各ネットワーク層の分散は、SGDまたはAdamの単一ステップが最小の損失値をもたらすように調整される。
また、学習率のウォームアップを伴わずに、オリジナルのPost-LN Transformerを機械翻訳用にトレーニングすることもできる。
論文 参考訳(メタデータ) (2021-02-16T11:45:35Z) - Implicit differentiation of Lasso-type models for hyperparameter
optimization [82.73138686390514]
ラッソ型問題に適した行列逆転のない効率的な暗黙微分アルゴリズムを提案する。
提案手法は,解の空間性を利用して高次元データにスケールする。
論文 参考訳(メタデータ) (2020-02-20T18:43:42Z) - On the infinite width limit of neural networks with a standard
parameterization [52.07828272324366]
幅が無限大になるにつれて、これらの特性を全て保存する標準パラメータ化の補間の改善を提案する。
実験により,結果のカーネルはNTKパラメータ化の結果とよく似た精度が得られることがわかった。
論文 参考訳(メタデータ) (2020-01-21T01:02:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。