論文の概要: Small-scale proxies for large-scale Transformer training instabilities
- arxiv url: http://arxiv.org/abs/2309.14322v1
- Date: Mon, 25 Sep 2023 17:48:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-26 14:30:56.954211
- Title: Small-scale proxies for large-scale Transformer training instabilities
- Title(参考訳): 大規模変圧器訓練用小型プロキシ
- Authors: Mitchell Wortsman, Peter J. Liu, Lechao Xiao, Katie Everett, Alex
Alemi, Ben Adlam, John D. Co-Reyes, Izzeddin Gur, Abhishek Kumar, Roman
Novak, Jeffrey Pennington, Jascha Sohl-dickstein, Kelvin Xu, Jaehoon Lee,
Justin Gilmer, Simon Kornblith
- Abstract要約: 我々は、小規模でトレーニングの安定性と不安定性を再現し、研究する方法を模索する。
学習速度とスケールによる損失の関係を計測することにより,これらの不安定性は,学習率の高いトレーニングにおいて,小さなモデルにも現れることを示す。
ウォームアップ,ウェイト崩壊,および$mu$Paramなどの手法を用いて,学習速度変化の桁数で同様の損失を被る小さなモデルを訓練する。
- 参考スコア(独自算出の注目度): 69.36381318171338
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Teams that have trained large Transformer-based models have reported training
instabilities at large scale that did not appear when training with the same
hyperparameters at smaller scales. Although the causes of such instabilities
are of scientific interest, the amount of resources required to reproduce them
has made investigation difficult. In this work, we seek ways to reproduce and
study training stability and instability at smaller scales. First, we focus on
two sources of training instability described in previous work: the growth of
logits in attention layers (Dehghani et al., 2023) and divergence of the output
logits from the log probabilities (Chowdhery et al., 2022). By measuring the
relationship between learning rate and loss across scales, we show that these
instabilities also appear in small models when training at high learning rates,
and that mitigations previously employed at large scales are equally effective
in this regime. This prompts us to investigate the extent to which other known
optimizer and model interventions influence the sensitivity of the final loss
to changes in the learning rate. To this end, we study methods such as warm-up,
weight decay, and the $\mu$Param (Yang et al., 2022), and combine techniques to
train small models that achieve similar losses across orders of magnitude of
learning rate variation. Finally, to conclude our exploration we study two
cases where instabilities can be predicted before they emerge by examining the
scaling behavior of model activation and gradient norms.
- Abstract(参考訳): 大規模なトランスフォーマーベースのモデルをトレーニングしたチームは、同じハイパーパラメータを小さなスケールでトレーニングする場合に現れない大規模なトレーニング不安定性を報告している。
このような不安定の原因は科学的に興味深いが、それらの再生に必要な資源の量は調査を困難にしている。
本研究では,小規模でトレーニングの安定性と不安定性を再現し,研究する方法を模索する。
まず,注意層におけるロジットの成長(Dehghani et al., 2023)と,ログ確率からの出力ロジットのばらつき(Chowdhery et al., 2022)の2つのトレーニング不安定性源に着目した。
学習率と損失の関係を尺度で測定することにより,高い学習率でトレーニングする場合に,これらの不安定性が小モデルにも現れること,大規模で従来採用されていた緩和効果が等しく有効であることを示す。
これにより、他の既知のオプティマイザやモデル介入が学習率の変化に対する最終損失の感度にどの程度影響するかを調べることができる。
この目的のために、ウォームアップ、重量減少、および$\mu$param (yang et al., 2022) のような手法を研究し、学習率の変動の桁にまたがる類似の損失を達成する小さなモデルを訓練する手法を組み合わせる。
最後に, モデルアクティベーションと勾配規範のスケーリング挙動を調べることにより, 不安定性が出現前に予測できる2つの事例について考察した。
関連論文リスト
- Tending Towards Stability: Convergence Challenges in Small Language Models [3.734405405403176]
その利点にもかかわらず、より小型のモデルはより大きなモデルに比べて性能が劣ることが多い。
これは、比例的に表現能力の低下によるものである。
階層のアクティベーションの収束とパラメータの有効ランクを結びつけることで、我々の分析は、小さなモデルの学習力学における非効率性に対処するために将来の研究を導くことができる。
論文 参考訳(メタデータ) (2024-10-15T09:57:19Z) - On the Inductive Bias of Stacking Towards Improving Reasoning [50.225873619537765]
言語モデルのトレーニングを最大40%高速化できるMIDASと呼ばれる段階的スタック方式を提案する。
MIDASはトレーニング効率だけでなく、ダウンストリームタスクを改善するための誘導バイアスも備えている。
我々は、この帰納バイアスの根底にある理由を、ループモデルへの積み重ねの接続を探索することによって推測する。
論文 参考訳(メタデータ) (2024-09-27T17:58:21Z) - Scaling Laws and Compute-Optimal Training Beyond Fixed Training Durations [62.132347451049455]
スケールは強力な機械学習モデルを得る上で重要な要素となっている。
本研究では,コサインのスケジュールに依存するため,スケールとトレーニングの研究は必然的に複雑である,と論じる。
その結果,重量平均化はトレーニングの軌道に沿って,異なるスケールでのトレーニングコストを伴わずに向上することがわかった。
論文 参考訳(メタデータ) (2024-05-28T17:33:54Z) - Reusing Pretrained Models by Multi-linear Operators for Efficient
Training [65.64075958382034]
大規模なモデルをスクラッチからトレーニングすることは、通常、かなりの量のリソースを必要とする。
bert2BERT や LiGO といった最近の研究は、大規模なモデルを初期化するために、小さな事前訓練されたモデルを再利用している。
本稿では,対象モデルの各重みを事前学習モデルの全重みに線形に相関させる手法を提案する。
論文 参考訳(メタデータ) (2023-10-16T06:16:47Z) - What Happens During Finetuning of Vision Transformers: An Invariance
Based Investigation [7.432224771219168]
Pretrain-finetuneパラダイムは、通常、同じタスクでモデルをスクラッチからトレーニングするよりも、下流のパフォーマンスを改善する。
本研究では,事前学習した視覚変換器とそれに対応する微調整バージョンとの関係を,複数のベンチマークデータセットとタスクで検討する。
論文 参考訳(メタデータ) (2023-07-12T08:35:24Z) - The Emergence of Essential Sparsity in Large Pre-trained Models: The
Weights that Matter [113.35761858962522]
本稿では,複数の大きな事前学習された視覚と言語変換器のスパースパターンを誘導する。
本稿では,性能がはるかに速く低下する急激な落差点で定義される本質的疎度の存在を提案する。
また、N:Mのスパーシティパターンと近代的な大規模言語モデルに有効であることを示す。
論文 参考訳(メタデータ) (2023-06-06T15:49:09Z) - Exploring Weight Balancing on Long-Tailed Recognition Problem [32.01426831450348]
クラスごとのサンプルサイズが重く歪んだ長いデータにおける認識問題の重要性が高まっている。
古典的正規化技術と2段階トレーニングを組み合わせた重みバランスが提案されている。
トレーニング段階ごとの神経崩壊とコーン効果に着目して重量バランスを解析した。
論文 参考訳(メタデータ) (2023-05-26T01:45:19Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - An Empirical Investigation of the Role of Pre-training in Lifelong
Learning [21.995593026269578]
複数のタスクを逐次学習する際の破滅的忘れの影響を,ジェネリック事前学習が暗黙的に軽減することを示す。
本研究では、この現象を損失景観を解析し、トレーニング済みの重みがより広いミニマへと導くことで忘れやすいように見えることを明らかにする。
論文 参考訳(メタデータ) (2021-12-16T19:00:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。