Fugu-MT 論文翻訳(概要): Spike No More: Stabilizing the Pre-training of Large Language Models

論文の概要: Spike No More: Stabilizing the Pre-training of Large Language Models

arxiv url: http://arxiv.org/abs/2312.16903v2
Date: Fri, 2 Feb 2024 10:37:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-05 18:50:43.419173
Title: Spike No More: Stabilizing the Pre-training of Large Language Models
Title（参考訳）: spike no more: 大きな言語モデルの事前学習の安定化
Authors: Sho Takase, Shun Kiyono, Sosuke Kobayashi, Jun Suzuki
Abstract要約: ロススパイクは、大きな言語モデルの事前訓練中に発生することが多い。損失スパイクの原因を調べるため,内部層の勾配に着目した。
参考スコア（独自算出の注目度）: 41.89174910063414
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Loss spikes often occur during pre-training of large language models. The spikes degrade the performance of large language models and sometimes ruin the pre-training. Since the pre-training needs a vast computational budget, we should avoid such spikes. To investigate the cause of loss spikes, we focus on gradients of internal layers. Through theoretical analyses, we reveal two causes of the exploding gradients, and provide requirements to prevent the explosion. In addition, we propose a method to satisfy the requirements by combining the initialization method and a simple modification to embeddings. We conduct various experiments to verify our theoretical analyses empirically. Experimental results indicate that the combination is effective in preventing spikes during pre-training.
Abstract（参考訳）: 損失スパイクは、大規模な言語モデルの事前学習中に発生することが多い。スパイクは大きな言語モデルの性能を低下させ、時には事前訓練を台無しにする。事前トレーニングには膨大な計算予算が必要ですから,そのようなスパイクは避けるべきです。損失スパイクの原因を明らかにするため,内部層の勾配に着目した。理論的解析により爆発勾配の2つの原因を明らかにし,爆発を防止するための要件を提供する。さらに,初期化法と埋め込みへの簡単な修正を組み合わせることで,要求を満たす手法を提案する。我々は理論解析を実証的に検証するために様々な実験を行う。実験の結果,前訓練時のスパイク防止に有効であった。

関連論文リスト

Temporal horizons in forecasting: a performance-learnability trade-off [1.564538938595125]
地平線が短すぎると長期的な傾向を見逃しかねないが、地平線は予測誤差の蓄積によって収束を妨げる。カオスシステムでは、損失ランドスケープの粗さはトレーニングの地平線とともに指数関数的に増大する。また,長い地平線でトレーニングしたモデルは短期的な予測によく当てはまるが,短い地平線でトレーニングしたモデルはカオス(周期的)システムにおいて指数関数的に(線形的に)悪い長期的な予測に苦しむ。
論文参考訳（メタデータ） (2025-06-04T12:34:22Z)
Overtrained Language Models Are Harder to Fine-Tune [64.44743256512237]
大規模言語モデルは、成長を続けるトークン予算に基づいて事前訓練されている。事前トレーニングの拡張により、モデルを微調整しにくくなり、最終的なパフォーマンスが低下することを示した。
論文参考訳（メタデータ） (2025-03-24T23:11:56Z)
Adaptive scheduling for adaptive sampling in POS taggers construction [0.27624021966289597]
音声タグ作成における機械学習の新たな手法として適応的サンプリングのための適応的スケジューリングを提案する。本研究では,関数モデルとともに幾何学的に学習曲線の形状を分析し,任意のタイミングで学習曲線を増減する。また,評価の一時的なインフレーションを受けるトレーニングデータベースの領域に注意を払い,サンプリングの堅牢性も向上する。
論文参考訳（メタデータ） (2024-02-04T15:02:17Z)
On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文参考訳（メタデータ） (2023-12-13T02:11:07Z)
Small-scale proxies for large-scale Transformer training instabilities [69.36381318171338]
我々は、小規模でトレーニングの安定性と不安定性を再現し、研究する方法を模索する。学習速度とスケールによる損失の関係を計測することにより,これらの不安定性は,学習率の高いトレーニングにおいて,小さなモデルにも現れることを示す。ウォームアップ,ウェイト崩壊,および$mu$Paramなどの手法を用いて,学習速度変化の桁数で同様の損失を被る小さなモデルを訓練する。
論文参考訳（メタデータ） (2023-09-25T17:48:51Z)
Examining the Effect of Pre-training on Time Series Classification [21.38211396933795]
本研究では, プレトレーニング後の微調整が微調整過程に及ぼす影響について検討した。 150の分類データセットを網羅的に検討した。事前学習は、データに適合しないモデルの最適化プロセスを改善するのにしか役立ちません。事前学習データを追加することで一般化は向上しないが、元のデータボリュームの事前学習の利点を強化することができる。
論文参考訳（メタデータ） (2023-09-11T06:26:57Z)
Dropout Reduces Underfitting [85.61466286688385]
本研究は,トレーニング開始時の不適合を軽減できることを示す。ドロップアウトは、ミニバッチ間の勾配の方向性のばらつきを低減し、データセット全体の勾配とミニバッチ勾配の整合を支援する。この結果から,未適合モデルの性能向上のためのソリューションが得られた – 早期のドロップアウト – トレーニングの初期段階でのみドロップアウトが適用され,その後,オフになります。
論文参考訳（メタデータ） (2023-03-02T18:59:15Z)
Same Pre-training Loss, Better Downstream: Implicit Bias Matters for Language Models [46.24479693469042]
本稿では,(1)事前学習損失が下流性能を完全に説明できないこと,(2)事前学習損失がない場合の下流性能とモデルの平坦性はよく相関していることを示す。
論文参考訳（メタデータ） (2022-10-25T17:45:36Z)
An Empirical Investigation of the Role of Pre-training in Lifelong Learning [21.995593026269578]
複数のタスクを逐次学習する際の破滅的忘れの影響を,ジェネリック事前学習が暗黙的に軽減することを示す。本研究では、この現象を損失景観を解析し、トレーニング済みの重みがより広いミニマへと導くことで忘れやすいように見えることを明らかにする。
論文参考訳（メタデータ） (2021-12-16T19:00:55Z)
Mitigating Catastrophic Forgetting in Scheduled Sampling with Elastic Weight Consolidation in Neural Machine Translation [15.581515781839656]
最大推定値で訓練された自己回帰モデルは、露出バイアスに悩まされる。露光バイアスの軽減と出力品質の維持のトレードオフとして, 弾性重み強化(Elastic Weight Consolidation)を提案する。 2つのIWSLT'14翻訳タスクの実験は、我々のアプローチが破滅的な忘れを軽減し、BLEUを大幅に改善することを示した。
論文参考訳（メタデータ） (2021-09-13T20:37:58Z)
Mixing between the Cross Entropy and the Expectation Loss Terms [89.30385901335323]
クロスエントロピー損失は、トレーニング中にサンプルを分類するのが難しくなる傾向にある。最適化目標に期待損失を加えることで,ネットワークの精度が向上することを示す。実験により,新しいトレーニングプロトコルにより,多様な分類領域における性能が向上することが示された。
論文参考訳（メタデータ） (2021-09-12T23:14:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。