Fugu-MT 論文翻訳(概要): Spike No More: Stabilizing the Pre-training of Large Language Models

論文の概要: Spike No More: Stabilizing the Pre-training of Large Language Models

arxiv url: http://arxiv.org/abs/2312.16903v3
Date: Thu, 10 Oct 2024 11:24:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 23:06:54.431761
Title: Spike No More: Stabilizing the Pre-training of Large Language Models
Title（参考訳）: Spike No more: 大規模言語モデルの事前トレーニングの安定化
Authors: Sho Takase, Shun Kiyono, Sosuke Kobayashi, Jun Suzuki,
Abstract要約: ロススパイクは、大きな言語モデルの事前訓練中に発生することが多い。サブ層に対するヤコビ行列のスペクトルノルムの解析を通して勾配ノルムを小さくする因子を探索する。予備訓練プロセスの安定化には, 小さいサブレイヤと大きなショートカットの2つの条件が必要であることが示唆された。
参考スコア（独自算出の注目度）: 38.34737204307412
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Loss spikes often occur during pre-training of large language models. The spikes degrade the performance of large language models and sometimes ruin the pre-training. Since the pre-training needs a vast computational budget, we should avoid such spikes. Based on the assumption that the loss spike is caused by the sudden growth of the gradient norm, we explore factors to keep the gradient norm small through an analysis of the spectral norms of the Jacobian matrices for the sub-layers. Our findings suggest that stabilizing the pre-training process requires two conditions: small sub-layers and large shortcut. We conduct various experiments to empirically verify our theoretical analyses. Experimental results demonstrate that methods satisfying the conditions effectively prevent loss spikes during pre-training.
Abstract（参考訳）: ロススパイクは、大きな言語モデルの事前訓練中に発生することが多い。スパイクは大きな言語モデルの性能を低下させ、時には事前訓練を台無しにする。事前学習には膨大な計算予算が必要であるため、このようなスパイクは避けるべきである。損失スパイクは勾配ノルムの急激な成長に起因するという仮定に基づいて、サブ層に対するヤコビ行列のスペクトルノルムの解析を通して勾配ノルムを小さくする要因を探索する。予備訓練プロセスの安定化には, 小さいサブレイヤと大きなショートカットの2つの条件が必要であることが示唆された。理論的解析を実証的に検証するために,様々な実験を行った。実験により, 条件を満たす方法により, 事前訓練時の損失スパイクを効果的に防止できることが示された。

関連論文リスト

To Grok Grokking: Provable Grokking in Ridge Regression [24.785366757570202]
古典的な尾根回帰条件において, オーバーフィッティング後の一般化の開始点であるグラッキングについて検討した。理論的にも経験的にも、グルキングは原則的に増幅または排除できることを示す。以上の結果から,グルーキングは深層学習の固有の障害モードではなく,特定の訓練条件の結果であることが示唆された。
論文参考訳（メタデータ） (2026-01-27T16:52:04Z)
Regularity as Structural Amplifier, Not Trap: A Causal and Archetype-Based Analysis of Dropout in a Constrained Engineering Curriculum [0.0]
工学プログラム、特にラテンアメリカでは、厳格なカリキュラムと厳格な規則によって管理されることが多い。本研究はCAPIREフレームワークを用いて因果仮説を検証する。
論文参考訳（メタデータ） (2025-11-24T10:53:41Z)
SynCast: Synergizing Contradictions in Precipitation Nowcasting via Diffusion Sequential Preference Optimization [62.958457694151384]
本研究では,大規模な言語モデルにおける人的フィードバックからの強化学習の成功を動機として,降水量の最適化を初めて導入する。第一段階では、フレームワークはFARを減らすことに焦点を当て、誤報を効果的に抑えるためにモデルを訓練する。
論文参考訳（メタデータ） (2025-10-22T16:11:22Z)
The Coverage Principle: How Pre-Training Enables Post-Training [70.25788947586297]
予備学習が最終モデルの成功をどう形作るかを検討する。下流の性能予測におけるカバレッジのパワーを説明するメカニズムを明らかにする。
論文参考訳（メタデータ） (2025-10-16T17:53:50Z)
Temporal horizons in forecasting: a performance-learnability trade-off [1.564538938595125]
地平線が短すぎると長期的な傾向を見逃しかねないが、地平線は予測誤差の蓄積によって収束を妨げる。カオスシステムでは、損失ランドスケープの粗さはトレーニングの地平線とともに指数関数的に増大する。また,長い地平線でトレーニングしたモデルは短期的な予測によく当てはまるが,短い地平線でトレーニングしたモデルはカオス(周期的)システムにおいて指数関数的に(線形的に)悪い長期的な予測に苦しむ。
論文参考訳（メタデータ） (2025-06-04T12:34:22Z)
Overtrained Language Models Are Harder to Fine-Tune [64.44743256512237]
大規模言語モデルは、成長を続けるトークン予算に基づいて事前訓練されている。事前トレーニングの拡張により、モデルを微調整しにくくなり、最終的なパフォーマンスが低下することを示した。
論文参考訳（メタデータ） (2025-03-24T23:11:56Z)
Adaptive scheduling for adaptive sampling in POS taggers construction [0.27624021966289597]
音声タグ作成における機械学習の新たな手法として適応的サンプリングのための適応的スケジューリングを提案する。本研究では,関数モデルとともに幾何学的に学習曲線の形状を分析し,任意のタイミングで学習曲線を増減する。また,評価の一時的なインフレーションを受けるトレーニングデータベースの領域に注意を払い,サンプリングの堅牢性も向上する。
論文参考訳（メタデータ） (2024-02-04T15:02:17Z)
On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文参考訳（メタデータ） (2023-12-13T02:11:07Z)
Small-scale proxies for large-scale Transformer training instabilities [69.36381318171338]
我々は、小規模でトレーニングの安定性と不安定性を再現し、研究する方法を模索する。学習速度とスケールによる損失の関係を計測することにより,これらの不安定性は,学習率の高いトレーニングにおいて,小さなモデルにも現れることを示す。ウォームアップ,ウェイト崩壊,および$mu$Paramなどの手法を用いて,学習速度変化の桁数で同様の損失を被る小さなモデルを訓練する。
論文参考訳（メタデータ） (2023-09-25T17:48:51Z)
Examining the Effect of Pre-training on Time Series Classification [21.38211396933795]
本研究では, プレトレーニング後の微調整が微調整過程に及ぼす影響について検討した。 150の分類データセットを網羅的に検討した。事前学習は、データに適合しないモデルの最適化プロセスを改善するのにしか役立ちません。事前学習データを追加することで一般化は向上しないが、元のデータボリュームの事前学習の利点を強化することができる。
論文参考訳（メタデータ） (2023-09-11T06:26:57Z)
Dropout Reduces Underfitting [85.61466286688385]
本研究は,トレーニング開始時の不適合を軽減できることを示す。ドロップアウトは、ミニバッチ間の勾配の方向性のばらつきを低減し、データセット全体の勾配とミニバッチ勾配の整合を支援する。この結果から,未適合モデルの性能向上のためのソリューションが得られた – 早期のドロップアウト – トレーニングの初期段階でのみドロップアウトが適用され,その後,オフになります。
論文参考訳（メタデータ） (2023-03-02T18:59:15Z)
Same Pre-training Loss, Better Downstream: Implicit Bias Matters for Language Models [46.24479693469042]
本稿では,(1)事前学習損失が下流性能を完全に説明できないこと,(2)事前学習損失がない場合の下流性能とモデルの平坦性はよく相関していることを示す。
論文参考訳（メタデータ） (2022-10-25T17:45:36Z)
An Empirical Investigation of the Role of Pre-training in Lifelong Learning [21.995593026269578]
複数のタスクを逐次学習する際の破滅的忘れの影響を,ジェネリック事前学習が暗黙的に軽減することを示す。本研究では、この現象を損失景観を解析し、トレーニング済みの重みがより広いミニマへと導くことで忘れやすいように見えることを明らかにする。
論文参考訳（メタデータ） (2021-12-16T19:00:55Z)
Mitigating Catastrophic Forgetting in Scheduled Sampling with Elastic Weight Consolidation in Neural Machine Translation [15.581515781839656]
最大推定値で訓練された自己回帰モデルは、露出バイアスに悩まされる。露光バイアスの軽減と出力品質の維持のトレードオフとして, 弾性重み強化(Elastic Weight Consolidation)を提案する。 2つのIWSLT'14翻訳タスクの実験は、我々のアプローチが破滅的な忘れを軽減し、BLEUを大幅に改善することを示した。
論文参考訳（メタデータ） (2021-09-13T20:37:58Z)
Mixing between the Cross Entropy and the Expectation Loss Terms [89.30385901335323]
クロスエントロピー損失は、トレーニング中にサンプルを分類するのが難しくなる傾向にある。最適化目標に期待損失を加えることで,ネットワークの精度が向上することを示す。実験により,新しいトレーニングプロトコルにより,多様な分類領域における性能が向上することが示された。
論文参考訳（メタデータ） (2021-09-12T23:14:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。