論文の概要: Spike No More: Stabilizing the Pre-training of Large Language Models
- arxiv url: http://arxiv.org/abs/2312.16903v3
- Date: Thu, 10 Oct 2024 11:24:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-11 14:29:43.481296
- Title: Spike No More: Stabilizing the Pre-training of Large Language Models
- Title(参考訳): Spike No more: 大規模言語モデルの事前トレーニングの安定化
- Authors: Sho Takase, Shun Kiyono, Sosuke Kobayashi, Jun Suzuki,
- Abstract要約: ロススパイクは、大きな言語モデルの事前訓練中に発生することが多い。
サブ層に対するヤコビ行列のスペクトルノルムの解析を通して勾配ノルムを小さくする因子を探索する。
予備訓練プロセスの安定化には, 小さいサブレイヤと大きなショートカットの2つの条件が必要であることが示唆された。
- 参考スコア(独自算出の注目度): 38.34737204307412
- License:
- Abstract: Loss spikes often occur during pre-training of large language models. The spikes degrade the performance of large language models and sometimes ruin the pre-training. Since the pre-training needs a vast computational budget, we should avoid such spikes. Based on the assumption that the loss spike is caused by the sudden growth of the gradient norm, we explore factors to keep the gradient norm small through an analysis of the spectral norms of the Jacobian matrices for the sub-layers. Our findings suggest that stabilizing the pre-training process requires two conditions: small sub-layers and large shortcut. We conduct various experiments to empirically verify our theoretical analyses. Experimental results demonstrate that methods satisfying the conditions effectively prevent loss spikes during pre-training.
- Abstract(参考訳): ロススパイクは、大きな言語モデルの事前訓練中に発生することが多い。
スパイクは大きな言語モデルの性能を低下させ、時には事前訓練を台無しにする。
事前学習には膨大な計算予算が必要であるため、このようなスパイクは避けるべきである。
損失スパイクは勾配ノルムの急激な成長に起因するという仮定に基づいて、サブ層に対するヤコビ行列のスペクトルノルムの解析を通して勾配ノルムを小さくする要因を探索する。
予備訓練プロセスの安定化には, 小さいサブレイヤと大きなショートカットの2つの条件が必要であることが示唆された。
理論的解析を実証的に検証するために,様々な実験を行った。
実験により, 条件を満たす方法により, 事前訓練時の損失スパイクを効果的に防止できることが示された。
関連論文リスト
- Purify Unlearnable Examples via Rate-Constrained Variational Autoencoders [101.42201747763178]
未学習例(UE)は、正しくラベル付けされたトレーニング例に微妙な修正を加えることで、テストエラーの最大化を目指している。
我々の研究は、効率的な事前学習浄化法を構築するための、新しいゆがみ機構を提供する。
論文 参考訳(メタデータ) (2024-05-02T16:49:25Z) - The Fine Line: Navigating Large Language Model Pretraining with Down-streaming Capability Analysis [60.52921835351632]
本稿では,様々な事前学習中間点におけるモデル能力の総合的な比較を行う。
特定のダウンストリームメトリクスが、異なるサイズのモデルにまたがる同様のトレーニングダイナミクスを示すことを確認します。
コアの発見に加えて、AmberとOpenLLaMAを再現し、中間チェックポイントをリリースしました。
論文 参考訳(メタデータ) (2024-04-01T16:00:01Z) - Navigating the OverKill in Large Language Models [84.62340510027042]
モデルがどのように処理し,クエリの安全性を判断するかを検討することで,過剰スキルの要因について検討する。
以上の結果から,モデル内にショートカットが存在することが明らかとなり,"キル"のような有害な単語が過剰に認識され,安全性が強調され,過度なスキルが増すことが示唆された。
我々は、この現象を緩和するために、トレーニングフリーでモデルに依存しないセルフコントラストデコーディング(Self-Contrastive Decoding、CD)を導入する。
論文 参考訳(メタデータ) (2024-01-31T07:26:47Z) - Small-scale proxies for large-scale Transformer training instabilities [69.36381318171338]
我々は、小規模でトレーニングの安定性と不安定性を再現し、研究する方法を模索する。
学習速度とスケールによる損失の関係を計測することにより,これらの不安定性は,学習率の高いトレーニングにおいて,小さなモデルにも現れることを示す。
ウォームアップ,ウェイト崩壊,および$mu$Paramなどの手法を用いて,学習速度変化の桁数で同様の損失を被る小さなモデルを訓練する。
論文 参考訳(メタデータ) (2023-09-25T17:48:51Z) - Opening the Black Box: Analyzing Attention Weights and Hidden States in
Pre-trained Language Models for Non-language Tasks [0.8889304968879164]
階層構造を持つ制約付き算術問題に対して,事前学習した言語モデルを適用し,その注意重みと隠れ状態を分析する。
この調査は、人間の問題解決戦略と同様に、階層的な問題を適度に構造化した方法で解決するモデルによって、有望な結果を明らかにしている。
注意分析により、モデルがListOpsデータセットの長いシーケンスに一般化できると仮定できる。
論文 参考訳(メタデータ) (2023-06-21T11:48:07Z) - Same Pre-training Loss, Better Downstream: Implicit Bias Matters for
Language Models [46.24479693469042]
本稿では,(1)事前学習損失が下流性能を完全に説明できないこと,(2)事前学習損失がない場合の下流性能とモデルの平坦性はよく相関していることを示す。
論文 参考訳(メタデータ) (2022-10-25T17:45:36Z) - Fine-tuning Pre-trained Language Models for Few-shot Intent Detection:
Supervised Pre-training and Isotropization [20.296932841785374]
等方性に向けて特徴空間を規則化し,教師付き事前学習を改善することを提案する。
本研究の主目的は,アイソトロピゼーションによる教師付き事前学習の正規化を約束し,撮影意図検出の性能向上を図ることである。
論文 参考訳(メタデータ) (2022-05-15T07:48:13Z) - An Empirical Investigation of the Role of Pre-training in Lifelong
Learning [21.995593026269578]
複数のタスクを逐次学習する際の破滅的忘れの影響を,ジェネリック事前学習が暗黙的に軽減することを示す。
本研究では、この現象を損失景観を解析し、トレーニング済みの重みがより広いミニマへと導くことで忘れやすいように見えることを明らかにする。
論文 参考訳(メタデータ) (2021-12-16T19:00:55Z) - Mitigating Catastrophic Forgetting in Scheduled Sampling with Elastic
Weight Consolidation in Neural Machine Translation [15.581515781839656]
最大推定値で訓練された自己回帰モデルは、露出バイアスに悩まされる。
露光バイアスの軽減と出力品質の維持のトレードオフとして, 弾性重み強化(Elastic Weight Consolidation)を提案する。
2つのIWSLT'14翻訳タスクの実験は、我々のアプローチが破滅的な忘れを軽減し、BLEUを大幅に改善することを示した。
論文 参考訳(メタデータ) (2021-09-13T20:37:58Z) - Overfitting in adversarially robust deep learning [86.11788847990783]
トレーニングセットへの過度な適合は、実際には、逆向きの堅牢なトレーニングにおいて、非常に大きなロバストなパフォーマンスを損なうことを示す。
また, 2重降下曲線のような効果は, 逆向きに訓練されたモデルでもまだ起こるが, 観測された過度なオーバーフィッティングを説明できないことを示す。
論文 参考訳(メタデータ) (2020-02-26T15:40:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。