論文の概要: Small-scale proxies for large-scale Transformer training instabilities
- arxiv url: http://arxiv.org/abs/2309.14322v2
- Date: Mon, 16 Oct 2023 18:43:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 20:28:06.378633
- Title: Small-scale proxies for large-scale Transformer training instabilities
- Title(参考訳): 大規模変圧器訓練用小型プロキシ
- Authors: Mitchell Wortsman, Peter J. Liu, Lechao Xiao, Katie Everett, Alex
Alemi, Ben Adlam, John D. Co-Reyes, Izzeddin Gur, Abhishek Kumar, Roman
Novak, Jeffrey Pennington, Jascha Sohl-dickstein, Kelvin Xu, Jaehoon Lee,
Justin Gilmer, Simon Kornblith
- Abstract要約: 我々は、小規模でトレーニングの安定性と不安定性を再現し、研究する方法を模索する。
学習速度とスケールによる損失の関係を計測することにより,これらの不安定性は,学習率の高いトレーニングにおいて,小さなモデルにも現れることを示す。
ウォームアップ,ウェイト崩壊,および$mu$Paramなどの手法を用いて,学習速度変化の桁数で同様の損失を被る小さなモデルを訓練する。
- 参考スコア(独自算出の注目度): 69.36381318171338
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Teams that have trained large Transformer-based models have reported training
instabilities at large scale that did not appear when training with the same
hyperparameters at smaller scales. Although the causes of such instabilities
are of scientific interest, the amount of resources required to reproduce them
has made investigation difficult. In this work, we seek ways to reproduce and
study training stability and instability at smaller scales. First, we focus on
two sources of training instability described in previous work: the growth of
logits in attention layers (Dehghani et al., 2023) and divergence of the output
logits from the log probabilities (Chowdhery et al., 2022). By measuring the
relationship between learning rate and loss across scales, we show that these
instabilities also appear in small models when training at high learning rates,
and that mitigations previously employed at large scales are equally effective
in this regime. This prompts us to investigate the extent to which other known
optimizer and model interventions influence the sensitivity of the final loss
to changes in the learning rate. To this end, we study methods such as warm-up,
weight decay, and the $\mu$Param (Yang et al., 2022), and combine techniques to
train small models that achieve similar losses across orders of magnitude of
learning rate variation. Finally, to conclude our exploration we study two
cases where instabilities can be predicted before they emerge by examining the
scaling behavior of model activation and gradient norms.
- Abstract(参考訳): 大規模なトランスフォーマーベースのモデルをトレーニングしたチームは、同じハイパーパラメータを小さなスケールでトレーニングする場合に現れない大規模なトレーニング不安定性を報告している。
このような不安定の原因は科学的に興味深いが、それらの再生に必要な資源の量は調査を困難にしている。
本研究では,小規模でトレーニングの安定性と不安定性を再現し,研究する方法を模索する。
まず,注意層におけるロジットの成長(Dehghani et al., 2023)と,ログ確率からの出力ロジットのばらつき(Chowdhery et al., 2022)の2つのトレーニング不安定性源に着目した。
学習率と損失の関係を尺度で測定することにより,高い学習率でトレーニングする場合に,これらの不安定性が小モデルにも現れること,大規模で従来採用されていた緩和効果が等しく有効であることを示す。
これにより、他の既知のオプティマイザやモデル介入が学習率の変化に対する最終損失の感度にどの程度影響するかを調べることができる。
この目的のために、ウォームアップ、重量減少、および$\mu$param (yang et al., 2022) のような手法を研究し、学習率の変動の桁にまたがる類似の損失を達成する小さなモデルを訓練する手法を組み合わせる。
最後に, モデルアクティベーションと勾配規範のスケーリング挙動を調べることにより, 不安定性が出現前に予測できる2つの事例について考察した。
関連論文リスト
- Reusing Pretrained Models by Multi-linear Operators for Efficient
Training [65.64075958382034]
大規模なモデルをスクラッチからトレーニングすることは、通常、かなりの量のリソースを必要とする。
bert2BERT や LiGO といった最近の研究は、大規模なモデルを初期化するために、小さな事前訓練されたモデルを再利用している。
本稿では,対象モデルの各重みを事前学習モデルの全重みに線形に相関させる手法を提案する。
論文 参考訳(メタデータ) (2023-10-16T06:16:47Z) - What Happens During Finetuning of Vision Transformers: An Invariance
Based Investigation [7.432224771219168]
Pretrain-finetuneパラダイムは、通常、同じタスクでモデルをスクラッチからトレーニングするよりも、下流のパフォーマンスを改善する。
本研究では,事前学習した視覚変換器とそれに対応する微調整バージョンとの関係を,複数のベンチマークデータセットとタスクで検討する。
論文 参考訳(メタデータ) (2023-07-12T08:35:24Z) - The Emergence of Essential Sparsity in Large Pre-trained Models: The
Weights that Matter [113.35761858962522]
本稿では,複数の大きな事前学習された視覚と言語変換器のスパースパターンを誘導する。
本稿では,性能がはるかに速く低下する急激な落差点で定義される本質的疎度の存在を提案する。
また、N:Mのスパーシティパターンと近代的な大規模言語モデルに有効であることを示す。
論文 参考訳(メタデータ) (2023-06-06T15:49:09Z) - Exploring Weight Balancing on Long-Tailed Recognition Problem [37.820617032391404]
トレーニング段階ごとの神経崩壊とコーン効果に着目して重量バランスを解析した。
本分析により, トレーニング段階数を1に減らし, 精度を向上し, トレーニング手法をさらに単純化することができる。
論文 参考訳(メタデータ) (2023-05-26T01:45:19Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - An Empirical Investigation of the Role of Pre-training in Lifelong
Learning [21.995593026269578]
複数のタスクを逐次学習する際の破滅的忘れの影響を,ジェネリック事前学習が暗黙的に軽減することを示す。
本研究では、この現象を損失景観を解析し、トレーニング済みの重みがより広いミニマへと導くことで忘れやすいように見えることを明らかにする。
論文 参考訳(メタデータ) (2021-12-16T19:00:55Z) - Understanding the Failure Modes of Out-of-Distribution Generalization [40.83290846983708]
経験的研究は、機械学習モデルは、トレーニング時間にのみラベルと急激な相関関係を持つ可能性のある背景のような特徴にしばしば依存していることを示唆している。
本研究は,学習が容易なタスクにおいても,モデルがこのように失敗する理由を説明することによって,この行動を引き起こす基本的な要因を同定する。
論文 参考訳(メタデータ) (2020-10-29T17:19:03Z) - Precise Tradeoffs in Adversarial Training for Linear Regression [55.764306209771405]
本稿では,ガウス的特徴を伴う線形回帰の文脈における対人訓練の役割を,正確かつ包括的に理解する。
我々は,同時代のミニマックス対逆訓練手法によって達成された標準/ロバスト精度とそれに対応するトレードオフを正確に特徴づける。
逆行訓練アルゴリズムの理論は、様々な要因(トレーニングデータのサイズや品質、モデルの過度化など)がこれらの2つの競合するアキュラシー間のトレードオフにどのように影響するかを厳密に研究する上で役立ちます。
論文 参考訳(メタデータ) (2020-02-24T19:01:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。