論文の概要: BranchNorm: Robustly Scaling Extremely Deep Transformers
- arxiv url: http://arxiv.org/abs/2305.02790v1
- Date: Thu, 4 May 2023 12:46:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-05 15:32:33.708359
- Title: BranchNorm: Robustly Scaling Extremely Deep Transformers
- Title(参考訳): BranchNorm: 非常に深いトランスをロバストにスケーリングする
- Authors: Yijin Liu, Xianfeng Zeng, Fandong Meng and Jie Zhou
- Abstract要約: BranchNormはトレーニング期間に応じてTransformerの非残留ブランチを動的に再スケールする。
複数の翻訳タスクの実験結果から、BranchNormはトレーニングの安定性と収束性能のトレードオフを向上することが示された。
- 参考スコア(独自算出の注目度): 55.92852268168816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, DeepNorm scales Transformers into extremely deep (i.e., 1000
layers) and reveals the promising potential of deep scaling. To stabilize the
training of deep models, DeepNorm (Wang et al., 2022) attempts to constrain the
model update to a constant value. Although applying such a constraint can
benefit the early stage of model training, it may lead to undertrained models
during the whole training procedure. In this paper, we propose BranchNorm,
which dynamically rescales the non-residual branch of Transformer in accordance
with the training period. BranchNorm not only theoretically stabilizes the
training with smooth gradient norms at the early stage, but also encourages
better convergence in the subsequent training stage. Experiment results on
multiple translation tasks demonstrate that BranchNorm achieves a better
trade-off between training stability and converge performance.
- Abstract(参考訳): 近年、DeepNormはトランスフォーマーを非常に深く(すなわち1000層)スケールし、ディープスケーリングの可能性を明らかにしている。
深層モデルのトレーニングを安定させるために、DeepNorm (Wang et al., 2022) はモデルの更新を一定値に制限しようとする。
このような制約を適用することは、モデルトレーニングの初期段階に利益をもたらすが、トレーニング手順全体において、未訓練のモデルにつながる可能性がある。
本稿では,変圧器の非正則分岐をトレーニング期間に応じて動的に再スケールする分岐ノルムを提案する。
BranchNormは、初期の段階においてスムーズな勾配ノルムでトレーニングを理論的に安定化させるだけでなく、その後のトレーニング段階ではより良い収束を促す。
複数の翻訳タスクの実験結果から、BranchNormはトレーニングの安定性と収束性能のトレードオフを向上することが示された。
関連論文リスト
- Maestro: Uncovering Low-Rank Structures via Trainable Decomposition [15.254107731735553]
近年、ディープニューラルネットワーク(DNN)はAIのブレークスルーの大きな要因となっている。
より正確で安全になるにつれて、ますます大きなものになってきています。
つまり、トレーニングはますますコストと時間がかかります。
トレーニング可能な低ランク層のためのフレームワークであるMaestroを提案する。
論文 参考訳(メタデータ) (2023-08-28T23:08:15Z) - Quantization-Aware and Tensor-Compressed Training of Transformers for
Natural Language Understanding [12.030179065286928]
本稿では,変圧器モデルにおけるモデルサイズ,演算演算,実行遅延を低減するために,量子化対応テンソル圧縮トレーニング手法を提案する。
あらかじめ訓練された変圧器から量子化およびテンソル圧縮された学生モデルを蒸留するために層間蒸留を適用した。
パフォーマンスは2つの自然言語理解タスクで実証され、最大6,3倍の圧縮率、精度の低下、顕著な推論とトレーニングのスピードアップを示す。
論文 参考訳(メタデータ) (2023-06-01T18:32:08Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Controlled Descent Training [0.0]
最適制御理論により,新しいモデルベースニューラルネットワーク(ANN)トレーニング手法を開発した。
この方法は、トレーニング損失収束を確実に保証し、トレーニング収束率を向上させるために、トレーニングラベルを増強する。
本手法の適用性は, 標準回帰問題と分類問題において実証される。
論文 参考訳(メタデータ) (2023-03-16T10:45:24Z) - Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。
線形複雑リカレント変種は自己回帰生成に適していることが証明されている。
この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文 参考訳(メタデータ) (2021-03-24T10:50:43Z) - Self-Progressing Robust Training [146.8337017922058]
敵対的なトレーニングのような現在の堅牢なトレーニング方法は、敵対的な例を生成するために「攻撃」を明示的に使用します。
我々はSPROUTと呼ばれる自己プログレッシブ・ロバスト・トレーニングのための新しいフレームワークを提案する。
その結果,スケーラブルで効果的で攻撃に依存しないロバストなトレーニング手法に新たな光を当てた。
論文 参考訳(メタデータ) (2020-12-22T00:45:24Z) - Once-for-All Adversarial Training: In-Situ Tradeoff between Robustness
and Accuracy for Free [115.81899803240758]
敵の訓練とその多くの変種は、ネットワークの堅牢性を大幅に改善するが、標準精度を妥協するコストがかかる。
本稿では,訓練されたモデルをその場で迅速に校正する方法を問うとともに,その標準と堅牢な精度のトレードオフについて検討する。
提案するフレームワークであるOne-for-all Adversarial Training (OAT)は,革新的なモデル条件トレーニングフレームワーク上に構築されている。
論文 参考訳(メタデータ) (2020-10-22T16:06:34Z) - Understanding the Difficulty of Training Transformers [120.99980924577787]
バランスの取れない勾配がトレーニングの不安定性の根本原因ではないことを示す。
我々は,早期段階のトレーニングを安定させ,後期段階においてその潜在能力を最大限に活用するためのアドミンを提案する。
論文 参考訳(メタデータ) (2020-04-17T13:59:07Z) - Mode-Assisted Unsupervised Learning of Restricted Boltzmann Machines [7.960229223744695]
標準勾配更新とオフグラディエント方向を適切に組み合わせることで、従来の勾配法よりもトレーニングを劇的に改善することを示す。
モードトレーニングと呼ばれるこのアプローチは、収束相対エントロピー(KL分散)の低下に加えて、より高速なトレーニングと安定性を促進する。
我々が提案するモードトレーニングは、任意の勾配法と組み合わせて適用でき、より一般的なエネルギーベースのニューラルネットワーク構造に容易に拡張できるため、非常に多用途である。
論文 参考訳(メタデータ) (2020-01-15T21:12:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。