Fugu-MT 論文翻訳(概要): Small-scale proxies for large-scale Transformer training instabilities

論文の概要: Small-scale proxies for large-scale Transformer training instabilities

arxiv url: http://arxiv.org/abs/2309.14322v2
Date: Mon, 16 Oct 2023 18:43:25 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-18 20:28:06.378633
Title: Small-scale proxies for large-scale Transformer training instabilities
Title（参考訳）: 大規模変圧器訓練用小型プロキシ
Authors: Mitchell Wortsman, Peter J. Liu, Lechao Xiao, Katie Everett, Alex Alemi, Ben Adlam, John D. Co-Reyes, Izzeddin Gur, Abhishek Kumar, Roman Novak, Jeffrey Pennington, Jascha Sohl-dickstein, Kelvin Xu, Jaehoon Lee, Justin Gilmer, Simon Kornblith
Abstract要約: 我々は、小規模でトレーニングの安定性と不安定性を再現し、研究する方法を模索する。学習速度とスケールによる損失の関係を計測することにより,これらの不安定性は,学習率の高いトレーニングにおいて,小さなモデルにも現れることを示す。ウォームアップ,ウェイト崩壊,および$mu$Paramなどの手法を用いて,学習速度変化の桁数で同様の損失を被る小さなモデルを訓練する。
参考スコア（独自算出の注目度）: 69.36381318171338
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Teams that have trained large Transformer-based models have reported training instabilities at large scale that did not appear when training with the same hyperparameters at smaller scales. Although the causes of such instabilities are of scientific interest, the amount of resources required to reproduce them has made investigation difficult. In this work, we seek ways to reproduce and study training stability and instability at smaller scales. First, we focus on two sources of training instability described in previous work: the growth of logits in attention layers (Dehghani et al., 2023) and divergence of the output logits from the log probabilities (Chowdhery et al., 2022). By measuring the relationship between learning rate and loss across scales, we show that these instabilities also appear in small models when training at high learning rates, and that mitigations previously employed at large scales are equally effective in this regime. This prompts us to investigate the extent to which other known optimizer and model interventions influence the sensitivity of the final loss to changes in the learning rate. To this end, we study methods such as warm-up, weight decay, and the $\mu$Param (Yang et al., 2022), and combine techniques to train small models that achieve similar losses across orders of magnitude of learning rate variation. Finally, to conclude our exploration we study two cases where instabilities can be predicted before they emerge by examining the scaling behavior of model activation and gradient norms.
Abstract（参考訳）: 大規模なトランスフォーマーベースのモデルをトレーニングしたチームは、同じハイパーパラメータを小さなスケールでトレーニングする場合に現れない大規模なトレーニング不安定性を報告している。このような不安定の原因は科学的に興味深いが、それらの再生に必要な資源の量は調査を困難にしている。本研究では,小規模でトレーニングの安定性と不安定性を再現し,研究する方法を模索する。まず,注意層におけるロジットの成長(Dehghani et al., 2023)と,ログ確率からの出力ロジットのばらつき(Chowdhery et al., 2022)の2つのトレーニング不安定性源に着目した。学習率と損失の関係を尺度で測定することにより,高い学習率でトレーニングする場合に,これらの不安定性が小モデルにも現れること,大規模で従来採用されていた緩和効果が等しく有効であることを示す。これにより、他の既知のオプティマイザやモデル介入が学習率の変化に対する最終損失の感度にどの程度影響するかを調べることができる。この目的のために、ウォームアップ、重量減少、および$\mu$param (yang et al., 2022) のような手法を研究し、学習率の変動の桁にまたがる類似の損失を達成する小さなモデルを訓練する手法を組み合わせる。最後に, モデルアクティベーションと勾配規範のスケーリング挙動を調べることにより, 不安定性が出現前に予測できる2つの事例について考察した。

関連論文リスト

Tending Towards Stability: Convergence Challenges in Small Language Models [3.734405405403176]
その利点にもかかわらず、より小型のモデルはより大きなモデルに比べて性能が劣ることが多い。これは、比例的に表現能力の低下によるものである。階層のアクティベーションの収束とパラメータの有効ランクを結びつけることで、我々の分析は、小さなモデルの学習力学における非効率性に対処するために将来の研究を導くことができる。
論文参考訳（メタデータ） (2024-10-15T09:57:19Z)
On the Inductive Bias of Stacking Towards Improving Reasoning [50.225873619537765]
言語モデルのトレーニングを最大40%高速化できるMIDASと呼ばれる段階的スタック方式を提案する。 MIDASはトレーニング効率だけでなく、ダウンストリームタスクを改善するための誘導バイアスも備えている。我々は、この帰納バイアスの根底にある理由を、ループモデルへの積み重ねの接続を探索することによって推測する。
論文参考訳（メタデータ） (2024-09-27T17:58:21Z)
Scaling Laws and Compute-Optimal Training Beyond Fixed Training Durations [62.132347451049455]
スケールは強力な機械学習モデルを得る上で重要な要素となっている。本研究では,コサインのスケジュールに依存するため,スケールとトレーニングの研究は必然的に複雑である,と論じる。その結果,重量平均化はトレーニングの軌道に沿って,異なるスケールでのトレーニングコストを伴わずに向上することがわかった。
論文参考訳（メタデータ） (2024-05-28T17:33:54Z)
Understanding Emergent Abilities of Language Models from the Loss Perspective [32.81782726603632]
モデルサイズやトレーニング計算の代わりに,事前学習損失のレンズの創発能力について検討した。モデルが,メトリクスの連続性に関係なく,特定のタスクに創発的能力を示すことがわかった。これにより、事前学習の損失が低いモデルで現れるような、創発的能力を再定義するインスピレーションがもたらされる。
論文参考訳（メタデータ） (2024-03-23T11:03:31Z)
Reusing Pretrained Models by Multi-linear Operators for Efficient Training [65.64075958382034]
大規模なモデルをスクラッチからトレーニングすることは、通常、かなりの量のリソースを必要とする。 bert2BERT や LiGO といった最近の研究は、大規模なモデルを初期化するために、小さな事前訓練されたモデルを再利用している。本稿では,対象モデルの各重みを事前学習モデルの全重みに線形に相関させる手法を提案する。
論文参考訳（メタデータ） (2023-10-16T06:16:47Z)
What Happens During Finetuning of Vision Transformers: An Invariance Based Investigation [7.432224771219168]
Pretrain-finetuneパラダイムは、通常、同じタスクでモデルをスクラッチからトレーニングするよりも、下流のパフォーマンスを改善する。本研究では,事前学習した視覚変換器とそれに対応する微調整バージョンとの関係を,複数のベンチマークデータセットとタスクで検討する。
論文参考訳（メタデータ） (2023-07-12T08:35:24Z)
The Emergence of Essential Sparsity in Large Pre-trained Models: The Weights that Matter [113.35761858962522]
本稿では,複数の大きな事前学習された視覚と言語変換器のスパースパターンを誘導する。本稿では,性能がはるかに速く低下する急激な落差点で定義される本質的疎度の存在を提案する。また、N:Mのスパーシティパターンと近代的な大規模言語モデルに有効であることを示す。
論文参考訳（メタデータ） (2023-06-06T15:49:09Z)
Exploring Weight Balancing on Long-Tailed Recognition Problem [32.01426831450348]
クラスごとのサンプルサイズが重く歪んだ長いデータにおける認識問題の重要性が高まっている。古典的正規化技術と2段階トレーニングを組み合わせた重みバランスが提案されている。トレーニング段階ごとの神経崩壊とコーン効果に着目して重量バランスを解析した。
論文参考訳（メタデータ） (2023-05-26T01:45:19Z)
Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。異なるサイズの言語モデルは事前学習中にどのように学習するか? より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文参考訳（メタデータ） (2022-12-19T19:16:29Z)
An Empirical Investigation of the Role of Pre-training in Lifelong Learning [21.995593026269578]
複数のタスクを逐次学習する際の破滅的忘れの影響を,ジェネリック事前学習が暗黙的に軽減することを示す。本研究では、この現象を損失景観を解析し、トレーニング済みの重みがより広いミニマへと導くことで忘れやすいように見えることを明らかにする。
論文参考訳（メタデータ） (2021-12-16T19:00:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。