論文の概要: Learning in Compact Spaces with Approximately Normalized Transformers
- arxiv url: http://arxiv.org/abs/2505.22014v1
- Date: Wed, 28 May 2025 06:23:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.44207
- Title: Learning in Compact Spaces with Approximately Normalized Transformers
- Title(参考訳): ほぼ正規化された変圧器を用いたコンパクト空間での学習
- Authors: Jörg K. H. Franke, Urs Spiegelhalter, Marianna Nezhurina, Jenia Jitsev, Frank Hutter, Michael Hefenbrock,
- Abstract要約: ディープラーニングでは、正規化と正規化は、オーバーフィッティング、数値不安定性、残ストリームのばらつきの増加といった課題に対する一般的な解である。
本研究では,より包括的だが近似正規化(変換器)を提案する。
我々のアプローチはパラメータのノルムを制約し、高次元ランダムベクトルのノルムの厳密な集中によって動機付けられたスカラー乗法によって全ての表現を正規化する。
GPTトレーニングに適用すると、QK正規化モデルに比べて40%早く収束し、3%未満の追加ランタイムを持つ。
- 参考スコア(独自算出の注目度): 36.80964800218174
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In deep learning, regularization and normalization are common solutions for challenges such as overfitting, numerical instabilities, and the increasing variance in the residual stream. An alternative approach is to force all parameters and representations to lie on a hypersphere. This removes the need for regularization and increases convergence speed, but comes with additional costs. In this work, we propose a more holistic but approximate normalization (anTransformer). Our approach constrains the norm of parameters and normalizes all representations via scalar multiplications motivated by the tight concentration of the norms of high-dimensional random vectors. When applied to GPT training, we observe a 40% faster convergence compared to models with QK normalization, with less than 3% additional runtime. Deriving scaling laws for anGPT, we found our method enables training with larger batch sizes and fewer hyperparameters, while matching the favorable scaling characteristics of classic GPT architectures.
- Abstract(参考訳): ディープラーニングでは、正規化と正規化は、オーバーフィッティング、数値不安定性、残ストリームのばらつきの増加といった課題に対する一般的な解である。
もう一つのアプローチは、すべてのパラメータと表現を超球上に置くように強制することである。
これにより正規化の必要性がなくなり、収束速度が向上するが、追加のコストが伴う。
本研究では,より包括的で近似的な正規化(Transformer)を提案する。
我々のアプローチはパラメータのノルムを制約し、高次元ランダムベクトルのノルムの厳密な集中によって動機付けられたスカラー乗法によって全ての表現を正規化する。
GPTトレーニングに適用すると、QK正規化モデルに比べて40%早く収束し、3%未満の追加ランタイムを持つ。
我々は,AnGPTのスケーリング法則を導出し,従来のGPTアーキテクチャのスケーリング特性に適合しながら,より大きなバッチサイズと少ないハイパーパラメータでのトレーニングを可能にした。
関連論文リスト
- VCR-GauS: View Consistent Depth-Normal Regularizer for Gaussian Surface Reconstruction [47.603017811399624]
そこで本研究では,通常のパラメータと他のパラメータを直接結合するDepth-Normal正規化器を提案する。
また,より正確な表面モデリングのために,3次元ガウス多様体のサイズと分布を規則化するための密度化と分割戦略を導入する。
論文 参考訳(メタデータ) (2024-06-09T13:15:43Z) - Instance-Dependent Generalization Bounds via Optimal Transport [51.71650746285469]
既存の一般化境界は、現代のニューラルネットワークの一般化を促進する重要な要因を説明することができない。
データ空間における学習予測関数の局所リプシッツ正則性に依存するインスタンス依存の一般化境界を導出する。
ニューラルネットワークに対する一般化境界を実験的に解析し、有界値が有意義であることを示し、トレーニング中の一般的な正規化方法の効果を捉える。
論文 参考訳(メタデータ) (2022-11-02T16:39:42Z) - Squared $\ell_2$ Norm as Consistency Loss for Leveraging Augmented Data
to Learn Robust and Invariant Representations [76.85274970052762]
元のサンプルと拡張されたサンプルの埋め込み/表現の距離を規則化することは、ニューラルネットワークの堅牢性を改善するための一般的なテクニックである。
本稿では、これらの様々な正規化選択について検討し、埋め込みの正規化方法の理解を深める。
私たちが特定したジェネリックアプローチ(squared $ell$ regularized augmentation)は、それぞれ1つのタスクのために特別に設計されたいくつかの手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-11-25T22:40:09Z) - Obtaining Adjustable Regularization for Free via Iterate Averaging [43.75491612671571]
最適化のための正規化は、機械学習の過度な適合を避けるための重要なテクニックである。
我々は、任意の強凸かつ滑らかな対象関数上のSGDの繰り返しを正規化された関数に変換する平均化スキームを確立する。
提案手法は,高速化および事前条件最適化手法にも利用できる。
論文 参考訳(メタデータ) (2020-08-15T15:28:05Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。