論文の概要: Learning Rate Transfer in Normalized Transformers
- arxiv url: http://arxiv.org/abs/2604.27077v2
- Date: Fri, 01 May 2026 03:33:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 13:37:10.92807
- Title: Learning Rate Transfer in Normalized Transformers
- Title(参考訳): 正規化変圧器における学習速度伝達
- Authors: Boris Shigida, Boris Hanin, Andrey Gromov,
- Abstract要約: Normalized Transformer(NGPT)は、トレーニングのスピードアップを実現し、重量減少や学習率のウォームアップを必要としない。
我々は,nGPTがモデル次元とトークン水平線をまたいで学習速度を伝達しないことを示した。
広範な実証検証によって、GPT$$$$は、幅、深さ、トークン水平線を越えた学習率の移動を示す。
- 参考スコア(独自算出の注目度): 13.348067461205853
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Normalized Transformer, or nGPT (arXiv:2410.01131) achieves impressive training speedups and does not require weight decay or learning rate warmup. However, despite having hyperparameters that explicitly scale with model size, we observe that nGPT does not exhibit learning rate transfer across model dimension and token horizon. To rectify this, we combine numerical experiments with a principled use of alignment exponents (arXiv:2407.05872) to revisit and modify the $μ$P approach to hyperparameter transfer (arXiv:2011.14522). The result is a novel nGPT parameterization we call $ν$GPT. Through extensive empirical validation, we find $ν$GPT exhibits learning rate transfer across width, depth, and token horizon.
- Abstract(参考訳): 正規化変換器(nGPT、arXiv:2410.01131)は、トレーニングのスピードアップを実現し、重量減少や学習率のウォームアップを必要としない。
しかし, モデルサイズに比例してスケールするハイパーパラメータを持つにもかかわらず, nGPTはモデル次元とトークン水平線をまたいだ学習速度の移動を示さない。
これを修正するために、数値実験とアライメント指数(arXiv:2407.05872)の原理的利用を組み合わせて、超パラメータ移動(arXiv:2011.14522)に対する$μ$Pアプローチを再検討し修正する。
その結果は、$ν$GPT と呼ぶ新しい nGPT パラメータ化である。
広範な実証検証によって、$ν$GPTは幅、深さ、トークン水平線を越えた学習率の移動を示す。
関連論文リスト
- A Proof of Learning Rate Transfer under $μ$P [11.438864291100225]
線形多層パーセプトロン(MLP)において,$mu$Pでパラメトリケートされた幅の学習率伝達の最初の証明を提供する。
我々は、$mu P$未満では、幅が無限に近づくにつれて、最適学習率はエンフェノンゼロ定数に収束することを示した。
論文 参考訳(メタデータ) (2025-11-03T16:45:47Z) - Test time training enhances in-context learning of nonlinear functions [51.56484100374058]
テストタイムトレーニング(TTT)は、各予測に先立って指定されたパラメータを明示的に更新することで、モデル性能を向上させる。
本研究では,TTTとテキスト内学習(ICL)の組み合わせについて検討する。
論文 参考訳(メタデータ) (2025-09-30T03:56:44Z) - Learning in Compact Spaces with Approximately Normalized Transformers [36.80964800218174]
ディープラーニングでは、正規化と正規化は、オーバーフィッティング、数値不安定性、残ストリームのばらつきの増加といった課題に対する一般的な解である。
本研究では,より包括的だが近似正規化(変換器)を提案する。
我々のアプローチはパラメータのノルムを制約し、高次元ランダムベクトルのノルムの厳密な集中によって動機付けられたスカラー乗法によって全ての表現を正規化する。
GPTトレーニングに適用すると、QK正規化モデルに比べて40%早く収束し、3%未満の追加ランタイムを持つ。
論文 参考訳(メタデータ) (2025-05-28T06:23:19Z) - Taming Transformer Without Using Learning Rate Warmup [11.9495483265072]
Transformerを大規模にスケールすることは、学習率のウォープのような技術的なトリックを使わずに、非常に難しい作業です。
本稿では,新たな最適化戦略,すなわち重み更新をスムーズに行う。
我々は、ViT、Swin-Transformer、GPTを用いて広範な実験を行い、学習率ウォームアップを使わずに、これらのトランスフォーマーを効果的に安定的に訓練できることを示す。
論文 参考訳(メタデータ) (2025-05-28T02:55:28Z) - VectorFit : Adaptive Singular & Bias Vector Fine-Tuning of Pre-trained Foundation Models [0.8875650122536799]
本稿では,VectorFitを紹介する。VectorFitは,その特異ベクトルとバイアスを適応的にトレーニングすることで,$W$に埋め込まれた既存の知識を効率的に活用する。
この方法では、$W$の構造的および変換的性質を利用することで、完全な微調整に匹敵する高階インクリメンタルウェイト行列が$Delta W$となることが示される。
論文 参考訳(メタデータ) (2025-03-25T10:36:27Z) - Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。
提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。
提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-11-02T18:18:35Z) - Unveil Benign Overfitting for Transformer in Vision: Training Dynamics, Convergence, and Generalization [88.5582111768376]
本研究では, ソフトマックスを用いた自己保持層と, 勾配勾配下での完全連結層からなるトランスフォーマーの最適化について検討した。
この結果から,データモデルにおける信号対雑音比に基づいて,小さなテストエラー位相と大規模なテストエラー状態とを区別できるシャープ条件を確立した。
論文 参考訳(メタデータ) (2024-09-28T13:24:11Z) - Dynamic Layer Tying for Parameter-Efficient Transformers [65.268245109828]
トレーニング中にレイヤを選択し、それらを結びつけるために強化学習を採用しています。
これにより、重量共有が容易になり、トレーニング可能なパラメータの数を減らし、効果的な正規化技術としても機能する。
特に、トレーニング中のメモリ消費は、従来のトレーニング方法よりも1桁も少ない。
論文 参考訳(メタデータ) (2024-01-23T14:53:20Z) - WeGeFT: Weight-Generative Fine-Tuning for Multi-Faceted Efficient Adaptation of Large Models [8.481707805559589]
WeGeFT(Weight-Generative Fine-Tuning)は、トレーニング済みの重みから直接微調整重みを生成することを学習する新しい手法である。
この設計は、パラメータ、表現、計算、メモリの多面的効率を実現し、LoRAとその変種の性能を維持したり、超えたりしている。
論文 参考訳(メタデータ) (2023-12-01T16:33:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。