論文の概要: Initialization of Large Language Models via Reparameterization to Mitigate Loss Spikes
- arxiv url: http://arxiv.org/abs/2410.05052v1
- Date: Mon, 7 Oct 2024 14:09:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 00:38:19.113718
- Title: Initialization of Large Language Models via Reparameterization to Mitigate Loss Spikes
- Title(参考訳): 損失スパイク軽減のためのパラメータ化による大規模言語モデルの初期化
- Authors: Kosuke Nishida, Kyosuke Nishida, Kuniko Saito,
- Abstract要約: パラメータのノルムの非均一性は損失スパイクの原因の1つである。
ニューラルネットワークのトレーニングでは、階層全体にわたって勾配のスケールを一定に保つ必要がある。
- 参考スコア(独自算出の注目度): 18.12700358872208
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Loss spikes, a phenomenon in which the loss value diverges suddenly, is a fundamental issue in the pre-training of large language models. This paper supposes that the non-uniformity of the norm of the parameters is one of the causes of loss spikes. Here, in training of neural networks, the scale of the gradients is required to be kept constant throughout the layers to avoid the vanishing and exploding gradients problem. However, to meet these requirements in the Transformer model, the norm of the model parameters must be non-uniform, and thus, parameters whose norm is smaller are more sensitive to the parameter update. To address this issue, we propose a novel technique, weight scaling as reparameterization (WeSaR). WeSaR introduces a gate parameter per parameter matrix and adjusts it to the value satisfying the requirements. Because of the gate parameter, WeSaR sets the norm of the original parameters uniformly, which results in stable training. Experimental results with the Transformer decoders consisting of 130 million, 1.3 billion, and 13 billion parameters showed that WeSaR stabilizes and accelerates training and that it outperformed compared methods including popular initialization methods.
- Abstract(参考訳): ロススパイク(ロススパイク)は、損失値が突然分岐する現象であり、大きな言語モデルの事前学習における根本的な問題である。
本稿では、パラメータのノルムの不均一性が損失スパイクの原因の1つであると仮定する。
ここでは、ニューラルネットワークのトレーニングでは、勾配の消失と爆発を避けるために、階層全体で勾配のスケールを一定に保つ必要がある。
しかし、トランスフォーマーモデルにおけるこれらの要件を満たすためには、モデルパラメータのノルムは非一様でなければならないため、ノルムが小さいパラメータはパラメータの更新に対してより敏感である。
この問題に対処するために,リパラメトリゼーション(WeSaR)としてのウェイトスケーリングという新しい手法を提案する。
WeSaRはパラメータ行列ごとにゲートパラメータを導入し、要求を満たす値に調整する。
ゲートパラメータのため、WeSaRは元のパラメータのノルムを均一に設定し、安定したトレーニングを行う。
1億3000万、13億、13億のパラメータからなるTransformerデコーダによる実験の結果、WeSaRはトレーニングを安定させ、加速し、一般的な初期化手法を含む比較手法よりも優れていた。
関連論文リスト
- LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、下流タスクのための大規模な事前学習モデルに効果的に適応する、PEFT (Efficient Fine Tuning) 手法として人気がある。
モデル更新に低階テンソルパラメトリゼーションを用いる新しい手法を提案する。
提案手法は,大規模言語モデルの微調整に有効であり,比較性能を維持しつつ,パラメータ数の大幅な削減を実現している。
論文 参考訳(メタデータ) (2024-10-05T06:59:50Z) - Propulsion: Steering LLM with Tiny Fine-Tuning [0.0]
本稿では,タスク固有性能を最適化するために,新しいパラメータ最適化手法であるPropulsionを提案する。
物理運動の制御調整の概念にインスパイアされた推進は、事前訓練されたモデルの特定の次元を選択的に再スケールする。
我々の理論解析はニューラル・タンジェント・カーネル(NTK)理論によって支えられ、推進は訓練可能なパラメータがはるかに少ない完全な微調整の性能を近似することを示している。
論文 参考訳(メタデータ) (2024-09-17T06:51:59Z) - SaRA: High-Efficient Diffusion Model Fine-tuning with Progressive Sparse Low-Rank Adaptation [52.6922833948127]
本研究では,事前学習した拡散モデルにおけるパラメータの重要性について検討する。
本稿では,これらの非効率パラメータをフル活用するための新しいモデル微調整法を提案する。
本手法は,下流アプリケーションにおける事前学習モデルの生成能力を向上する。
論文 参考訳(メタデータ) (2024-09-10T16:44:47Z) - SVFit: Parameter-Efficient Fine-Tuning of Large Pre-Trained Models Using Singular Values [12.137869917556415]
大規模事前学習モデル(LPM)は、多種多様な自然言語処理やコンピュータビジョンタスクにおいて例外的な性能を示した。
これらのモデルを完全に微調整すると、特にリソース制約のある環境では、大きなメモリの問題が発生します。
本稿では,臨界特異値をトレーニング可能なパラメータとして用いた低ランク行列に対する特異値分解(SVD)を利用した新しいPEFT手法であるSVFitを提案する。
論文 参考訳(メタデータ) (2024-09-09T08:44:53Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Scaling Exponents Across Parameterizations and Optimizers [94.54718325264218]
本稿では,先行研究における重要な仮定を考察し,パラメータ化の新たな視点を提案する。
私たちの経験的調査には、3つの組み合わせでトレーニングされた数万のモデルが含まれています。
最高の学習率のスケーリング基準は、以前の作業の仮定から除外されることがよくあります。
論文 参考訳(メタデータ) (2024-07-08T12:32:51Z) - Identifying overparameterization in Quantum Circuit Born Machines [1.7259898169307613]
量子回路Bornマシンのオーバーパラメータ化遷移の開始について,非逆勾配法を用いて学習した生成モデルについて検討する。
我々の結果は、これらのモデルのトレーニング可能性を完全に理解することは、未解決の問題であることを示している。
論文 参考訳(メタデータ) (2023-07-06T21:05:22Z) - No Parameters Left Behind: Sensitivity Guided Adaptive Learning Rate for
Training Large Transformer Models [132.90062129639705]
本稿では,全てのパラメータを十分に訓練するための新しいトレーニング戦略を提案する。
感度の低いパラメータは冗長であり、学習率を高めて適合性を改善する。
対照的に、高い感度を持つパラメータを十分に訓練し、学習率を下げて正規化することで、さらなる過度なオーバーフィッティングを防止する。
論文 参考訳(メタデータ) (2022-02-06T00:22:28Z) - Regularized Nonlinear Regression for Simultaneously Selecting and
Estimating Key Model Parameters [1.6122433144430324]
システム同定では、限られた観測値を用いてモデルのパラメータを推定すると、識別性が低下する。
感度パラメータをキーモデルパラメータとして同時に選択および推定し、残りのパラメータを典型的な値の集合に固定する新しい方法を提案する。
論文 参考訳(メタデータ) (2021-04-23T06:17:57Z) - On the infinite width limit of neural networks with a standard
parameterization [52.07828272324366]
幅が無限大になるにつれて、これらの特性を全て保存する標準パラメータ化の補間の改善を提案する。
実験により,結果のカーネルはNTKパラメータ化の結果とよく似た精度が得られることがわかった。
論文 参考訳(メタデータ) (2020-01-21T01:02:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。