論文の概要: Normalization Layer Per-Example Gradients are Sufficient to Predict Gradient Noise Scale in Transformers
- arxiv url: http://arxiv.org/abs/2411.00999v1
- Date: Fri, 01 Nov 2024 19:50:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:44:11.380295
- Title: Normalization Layer Per-Example Gradients are Sufficient to Predict Gradient Noise Scale in Transformers
- Title(参考訳): 変圧器の勾配騒音の予測に有効な正規化層
- Authors: Gavia Gray, Aman Tiwari, Shane Bergsma, Joel Hestness,
- Abstract要約: 比例勾配ノルムは、最小分散で勾配雑音スケール(GNS)を推定するための重要な要素である。
本稿では,パラメータ勾配を計算しながら基準を同時に計算することで,3次元あるいはそれ以上のテンソル状態におけるFLOPを最小化する手法を提案する。
現代変圧器モデルの総 GNS は正規化層のみの GNS によりよく予測されている。
- 参考スコア(独自算出の注目度): 2.1415873597974286
- License:
- Abstract: Per-example gradient norms are a vital ingredient for estimating gradient noise scale (GNS) with minimal variance. Observing the tensor contractions required to compute them, we propose a method with minimal FLOPs in 3D or greater tensor regimes by simultaneously computing the norms while computing the parameter gradients. Using this method we are able to observe the GNS of different layers at higher accuracy than previously possible. We find that the total GNS of contemporary transformer models is predicted well by the GNS of only the normalization layers. As a result, focusing only on the normalization layer, we develop a custom kernel to compute the per-example gradient norms while performing the LayerNorm backward pass with zero throughput overhead. Tracking GNS on only those layers, we are able to guide a practical batch size schedule that reduces training time by 18% on a Chinchilla-optimal language model.
- Abstract(参考訳): 比例勾配ノルムは、最小分散で勾配雑音スケール(GNS)を推定するための重要な要素である。
計算に要するテンソルの縮約を観測し,パラメータ勾配を計算しながら基準を同時に計算することにより,3次元以上のテンソル状態において最小のFLOPを持つ手法を提案する。
この手法を用いることで、異なる層のGNSを従来より高い精度で観測することができる。
現代変圧器モデルの総 GNS は正規化層のみの GNS によりよく予測されている。
その結果、正規化層のみに焦点をあてて、スループットのオーバーヘッドをゼロにLayerNormを後方通過させながら、サンプルごとの勾配ノルムを計算するカスタムカーネルを開発した。
これらの層でのみGNSを追跡することで、チンチラ最適化言語モデルでトレーニング時間を18%短縮する、実用的なバッチサイズスケジュールをガイドすることができます。
関連論文リスト
- Gradient Normalization with(out) Clipping Ensures Convergence of Nonconvex SGD under Heavy-Tailed Noise with Improved Results [60.92029979853314]
本稿では,NSGDCを含まない勾配正規化(NSGDC-VR)について検討する。
両アルゴリズムの理論的結果の大幅な改善について述べる。
論文 参考訳(メタデータ) (2024-10-21T22:40:42Z) - NeuralGF: Unsupervised Point Normal Estimation by Learning Neural
Gradient Function [55.86697795177619]
3次元点雲の正規推定は3次元幾何処理の基本的な課題である。
我々は,ニューラルネットワークが入力点雲に適合することを奨励する,ニューラルグラデーション関数の学習のための新しいパラダイムを導入する。
広範に使用されているベンチマークの優れた結果から,本手法は非指向性および指向性正常推定タスクにおいて,より正確な正規性を学習できることが示されている。
論文 参考訳(メタデータ) (2023-11-01T09:25:29Z) - Neural Gradient Learning and Optimization for Oriented Point Normal
Estimation [53.611206368815125]
本研究では,3次元点雲から勾配ベクトルを一貫した向きで学習し,正規推定を行うためのディープラーニング手法を提案する。
局所平面幾何に基づいて角距離場を学習し、粗勾配ベクトルを洗練する。
本手法は,局所特徴記述の精度と能力の一般化を図りながら,グローバル勾配近似を効率的に行う。
論文 参考訳(メタデータ) (2023-09-17T08:35:11Z) - Error-aware Quantization through Noise Tempering [43.049102196902844]
量子化対応トレーニング(QAT)は、量子化エラーをシミュレートしながら、エンドタスクに関するモデルパラメータを最適化する。
本研究では,指数関数的に減衰する量子化・エラー認識ノイズと,学習可能なタスク損失勾配のスケールを組み込んで量子化演算子の効果を近似する。
本手法は, 従来の手法を0.5-1.2%絶対値で上回り, 均一な(非混合精度)量子化のための最先端トップ1分類精度を得る。
論文 参考訳(メタデータ) (2022-12-11T20:37:50Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Channel-Directed Gradients for Optimization of Convolutional Neural
Networks [50.34913837546743]
本稿では,畳み込みニューラルネットワークの最適化手法を提案する。
出力チャネル方向に沿って勾配を定義することで性能が向上し,他の方向が有害となることを示す。
論文 参考訳(メタデータ) (2020-08-25T00:44:09Z) - Gradient Centralization: A New Optimization Technique for Deep Neural
Networks [74.935141515523]
勾配集中(GC)は、勾配ベクトルをゼロ平均とする集中化によって、勾配を直接操作する。
GCは、制約された損失関数を持つ射影勾配降下法とみなすことができる。
GCは実装が非常に簡単で、1行のコードだけで既存のグラデーションベースのDNNに簡単に組み込める。
論文 参考訳(メタデータ) (2020-04-03T10:25:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。