論文の概要: Universal Dynamics of Warmup Stable Decay: understanding WSD beyond Transformers
- arxiv url: http://arxiv.org/abs/2601.09000v1
- Date: Tue, 13 Jan 2026 21:54:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.176794
- Title: Universal Dynamics of Warmup Stable Decay: understanding WSD beyond Transformers
- Title(参考訳): ワームアップ安定化のユニバーサルダイナミクス: トランスフォーマーを超えてWSDを理解する
- Authors: Annalisa Belloni, Lorenzo Noci, Antonio Orvieto,
- Abstract要約: Warmup Stable Decay(WSD)学習スケジューラが最近人気になった。主な理由は、言語モデルをトレーニングする際の優れたパフォーマンスの柔軟性にある。
本稿では、AdamのWSDパスを、AR10画像を分類する訓練を受けたPythiaのような小さなCNNで比較する。
- 参考スコア(独自算出の注目度): 22.556727774849048
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Warmup Stable Decay (WSD) learning rate scheduler has recently become popular, largely due to its good performance and flexibility when training large language models. It remains an open question whether the remarkable performance of WSD - using a decaying learning rate for only a fraction of training compared to cosine decay - is a phenomenon specific to transformer-based language models that can potentially offer new theoretical insights into their training dynamics. Inspired by the usage of learning rate schedulers as a new lens into understanding landscape geometry (e.g., river valley, connected minima, progressive sharpening), in this work we compare the WSD path of the Adam optimizer on a Pythia-like language model to that of a small CNN trained to classify CIFAR10 images. We observe most training signals, optimizer path features, and sharpness dynamics to be qualitatively similar in such architectures. This consistency points to shared geometric characteristics of the loss landscapes of old and new nonconvex problems, and hints to future research questions around the geometry of high dimensional optimization problems.
- Abstract(参考訳): Warmup Stable Decay(WSD)学習率スケジューラが最近人気になった。大きな言語モデルをトレーニングする際の優れたパフォーマンスと柔軟性が主な原因だ。
WSDの顕著なパフォーマンス(コサインの崩壊と比較してほんの少しのトレーニングで学習率を低下させる)がトランスフォーマーベースの言語モデルに特有の現象であり、トレーニングのダイナミクスに新たな理論的洞察を与える可能性があるかどうか、依然として疑問が残る。
この研究は、学習率スケジューラを新たなレンズとして利用して、景観幾何学(例えば、川谷、接続されたミニマ、プログレッシブ・シャープニング)を理解することに着想を得て、Pythiaのような言語モデル上のAdamオプティマイザのWSDパスと、CIFAR10画像を分類する訓練を受けた小さなCNNのパスを比較した。
このようなアーキテクチャでは、ほとんどのトレーニング信号、オプティマイザパスの特徴、シャープネスのダイナミクスが質的に類似しているのを観察する。
この一貫性は、古い非凸問題と新しい非凸問題の損失景観の幾何学的特徴を共有することを示し、高次元最適化問題の幾何学に関する将来の研究課題を示唆している。
関連論文リスト
- The Optimiser Hidden in Plain Sight: Training with the Loss Landscape's Induced Metric [0.0]
ニューラルネットワークをトレーニングするための新しいオプティマイザのクラスを提示する。
新しいオプティマイザはAdamに匹敵する計算複雑性を持つ。
これらのオプティマイザの1つの変種は、効果的なスケジュール学習率を誘導すると見なすこともできる。
論文 参考訳(メタデータ) (2025-09-03T18:00:33Z) - Stress-Aware Resilient Neural Training [38.363465138060086]
Stress-Aware Learningは、ディープニューラルネットワークが最適化動作を動的に調整する、レジリエントなニューラルネットワークトレーニングパラダイムである。
塑性変形は材料科学における構造疲労にインスパイアされている。
論文 参考訳(メタデータ) (2025-07-31T18:46:19Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Physics-Driven Turbulence Image Restoration with Stochastic Refinement [80.79900297089176]
大気乱流による画像歪みは、長距離光学画像システムにおいて重要な問題である。
ディープラーニングモデルが現実世界の乱流条件に適応するために、高速で物理学的なシミュレーションツールが導入された。
本稿では,物理統合復元ネットワーク(PiRN)を提案する。
論文 参考訳(メタデータ) (2023-07-20T05:49:21Z) - Stabilizing Transformer Training by Preventing Attention Entropy
Collapse [56.45313891694746]
本研究は,トランスフォーマーのトレーニングダイナミクスについて,注目層の進化について検討する。
我々は、$sigma$Reparamが注意層におけるエントロピー崩壊を防ぎ、より安定したトレーニングを促進することを示す。
画像分類、画像自己教師型学習、機械翻訳、音声認識、言語モデリングタスクについて、$sigma$Reparamで実験を行った。
論文 参考訳(メタデータ) (2023-03-11T03:30:47Z) - Continual Learning with Transformers for Image Classification [12.028617058465333]
コンピュータビジョンでは、ニューラルネットワークモデルは、過去に何を学んだかを忘れずに、新しい概念を継続的に学習する。
本研究では,適応型適応器の蒸留法 (ADA) を開発した。
本手法は,モデルを再学習することなく,優れた予測性能を維持することを実証的に示す。
論文 参考訳(メタデータ) (2022-06-28T15:30:10Z) - Revisit Geophysical Imaging in A New View of Physics-informed Generative
Adversarial Learning [2.12121796606941]
完全な波形反転は高分解能地下モデルを生成する。
最小二乗関数を持つFWIは、局所ミニマ問題のような多くの欠点に悩まされる。
偏微分方程式とニューラルネットワークを用いた最近の研究は、2次元FWIに対して有望な性能を示している。
本稿では,波動方程式を識別ネットワークに統合し,物理的に一貫したモデルを正確に推定する,教師なし学習パラダイムを提案する。
論文 参考訳(メタデータ) (2021-09-23T15:54:40Z) - A Flexible Framework for Designing Trainable Priors with Adaptive
Smoothing and Game Encoding [57.1077544780653]
我々は、前方通過を非滑らかな凸最適化問題として解釈できるニューラルネットワーク層の設計とトレーニングのための一般的なフレームワークを紹介する。
グラフのノードに代表されるローカルエージェントによって解決され、正規化関数を介して相互作用する凸ゲームに焦点を当てる。
このアプローチは、訓練可能なエンドツーエンドのディープモデル内で、古典的な画像の事前使用を可能にするため、画像の問題を解決するために魅力的である。
論文 参考訳(メタデータ) (2020-06-26T08:34:54Z) - On the interplay between physical and content priors in deep learning
for computational imaging [5.486833154281385]
我々は、レンズレス位相イメージングシステムにおいて、位相抽出ニューラルネットワーク(PhENN)を用いて定量的位相検索を行う。
2つの質問が関連していることを示し、トレーニング例の選択という共通点を共有します。
また, より弱い正規化効果により, 基礎となる伝搬モデルの学習性が向上することが判明した。
論文 参考訳(メタデータ) (2020-04-14T08:36:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。