論文の概要: Spike No More: Stabilizing the Pre-training of Large Language Models
- arxiv url: http://arxiv.org/abs/2312.16903v1
- Date: Thu, 28 Dec 2023 08:53:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 16:47:18.772214
- Title: Spike No More: Stabilizing the Pre-training of Large Language Models
- Title(参考訳): spike no more: 大きな言語モデルの事前学習の安定化
- Authors: Sho Takase, Shun Kiyono, Sosuke Kobayashi, Jun Suzuki
- Abstract要約: ロススパイクは、大きな言語モデルの事前トレーニング中に発生する。
爆発性勾配の2つの原因を導入し,爆発防止の要件を提示した。
実験結果から,プレトレーニング時のスパイク防止に有効であることが示唆された。
- 参考スコア(独自算出の注目度): 41.89174910063414
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The loss spike often occurs during pre-training of a large language model.
The spikes degrade the performance of a large language model, and sometimes
ruin the pre-training. Since the pre-training needs a vast computational
budget, we should avoid such spikes. To investigate a cause of loss spikes, we
focus on gradients of internal layers in this study. Through theoretical
analyses, we introduce two causes of the exploding gradients, and provide
requirements to prevent the explosion. In addition, we introduce the
combination of the initialization method and a simple modification to
embeddings as a method to satisfy the requirements. We conduct various
experiments to verify our theoretical analyses empirically. Experimental
results indicate that the combination is effective in preventing spikes during
pre-training.
- Abstract(参考訳): ロススパイクは、しばしば大きな言語モデルの事前トレーニング中に発生する。
スパイクは大きな言語モデルのパフォーマンスを低下させ、時には事前トレーニングを台無しにする。
事前トレーニングには膨大な計算予算が必要ですから,そのようなスパイクは避けるべきです。
損失スパイクの原因を明らかにするため,本研究では内部層の勾配に着目した。
理論的解析により, 爆発勾配の2つの原因を紹介し, 爆発防止の要件を提示する。
さらに,初期化法と組込みへの簡単な修正の組み合わせを,要件を満たす方法として導入する。
我々は理論解析を実証的に検証するために様々な実験を行う。
実験の結果,前訓練時のスパイク防止に有効であった。
関連論文リスト
- Adaptive scheduling for adaptive sampling in POS taggers construction [0.27624021966289597]
音声タグ作成における機械学習の新たな手法として適応的サンプリングのための適応的スケジューリングを提案する。
本研究では,関数モデルとともに幾何学的に学習曲線の形状を分析し,任意のタイミングで学習曲線を増減する。
また,評価の一時的なインフレーションを受けるトレーニングデータベースの領域に注意を払い,サンプリングの堅牢性も向上する。
論文 参考訳(メタデータ) (2024-02-04T15:02:17Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Small-scale proxies for large-scale Transformer training instabilities [69.36381318171338]
我々は、小規模でトレーニングの安定性と不安定性を再現し、研究する方法を模索する。
学習速度とスケールによる損失の関係を計測することにより,これらの不安定性は,学習率の高いトレーニングにおいて,小さなモデルにも現れることを示す。
ウォームアップ,ウェイト崩壊,および$mu$Paramなどの手法を用いて,学習速度変化の桁数で同様の損失を被る小さなモデルを訓練する。
論文 参考訳(メタデータ) (2023-09-25T17:48:51Z) - Examining the Effect of Pre-training on Time Series Classification [21.38211396933795]
本研究では, プレトレーニング後の微調整が微調整過程に及ぼす影響について検討した。
150の分類データセットを網羅的に検討した。
事前学習は、データに適合しないモデルの最適化プロセスを改善するのにしか役立ちません。
事前学習データを追加することで一般化は向上しないが、元のデータボリュームの事前学習の利点を強化することができる。
論文 参考訳(メタデータ) (2023-09-11T06:26:57Z) - Dropout Reduces Underfitting [85.61466286688385]
本研究は,トレーニング開始時の不適合を軽減できることを示す。
ドロップアウトは、ミニバッチ間の勾配の方向性のばらつきを低減し、データセット全体の勾配とミニバッチ勾配の整合を支援する。
この結果から,未適合モデルの性能向上のためのソリューションが得られた – 早期のドロップアウト – トレーニングの初期段階でのみドロップアウトが適用され,その後,オフになります。
論文 参考訳(メタデータ) (2023-03-02T18:59:15Z) - Same Pre-training Loss, Better Downstream: Implicit Bias Matters for
Language Models [46.24479693469042]
本稿では,(1)事前学習損失が下流性能を完全に説明できないこと,(2)事前学習損失がない場合の下流性能とモデルの平坦性はよく相関していることを示す。
論文 参考訳(メタデータ) (2022-10-25T17:45:36Z) - An Empirical Investigation of the Role of Pre-training in Lifelong
Learning [21.995593026269578]
複数のタスクを逐次学習する際の破滅的忘れの影響を,ジェネリック事前学習が暗黙的に軽減することを示す。
本研究では、この現象を損失景観を解析し、トレーニング済みの重みがより広いミニマへと導くことで忘れやすいように見えることを明らかにする。
論文 参考訳(メタデータ) (2021-12-16T19:00:55Z) - Mitigating Catastrophic Forgetting in Scheduled Sampling with Elastic
Weight Consolidation in Neural Machine Translation [15.581515781839656]
最大推定値で訓練された自己回帰モデルは、露出バイアスに悩まされる。
露光バイアスの軽減と出力品質の維持のトレードオフとして, 弾性重み強化(Elastic Weight Consolidation)を提案する。
2つのIWSLT'14翻訳タスクの実験は、我々のアプローチが破滅的な忘れを軽減し、BLEUを大幅に改善することを示した。
論文 参考訳(メタデータ) (2021-09-13T20:37:58Z) - Mixing between the Cross Entropy and the Expectation Loss Terms [89.30385901335323]
クロスエントロピー損失は、トレーニング中にサンプルを分類するのが難しくなる傾向にある。
最適化目標に期待損失を加えることで,ネットワークの精度が向上することを示す。
実験により,新しいトレーニングプロトコルにより,多様な分類領域における性能が向上することが示された。
論文 参考訳(メタデータ) (2021-09-12T23:14:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。