論文の概要: A Physics-Inspired Optimizer: Velocity Regularized Adam
- arxiv url: http://arxiv.org/abs/2505.13196v1
- Date: Mon, 19 May 2025 14:51:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.667537
- Title: A Physics-Inspired Optimizer: Velocity Regularized Adam
- Title(参考訳): 物理にインスパイアされた最適化:速度正規化アダム
- Authors: Pranav Vaidhyanathan, Lucas Schorling, Natalia Ares, Michael A. Osborne,
- Abstract要約: 本研究では,系の力学に安定化効果を持たせながら,運動エネルギーのクォート的な用語からアイデアを引き出す,深層ニューラルネットワークのトレーニングに着想を得た物理系であるVelocity-Regularized Adam(VRAdam)を紹介する。
我々は,CNN,Transformer,GFlowNetsなどの多様なアーキテクチャとトレーニング手法を用いて,画像分類,言語モデリング,画像生成,生成モデリングなどのタスクをベンチマークする。
- 参考スコア(独自算出の注目度): 16.047084318753377
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We introduce Velocity-Regularized Adam (VRAdam), a physics-inspired optimizer for training deep neural networks that draws on ideas from quartic terms for kinetic energy with its stabilizing effects on various system dynamics. Previous algorithms, including the ubiquitous Adam, operate at the so called adaptive edge of stability regime during training leading to rapid oscillations and slowed convergence of loss. However, VRAdam adds a higher order penalty on the learning rate based on the velocity such that the algorithm automatically slows down whenever weight updates become large. In practice, we observe that the effective dynamic learning rate shrinks in high-velocity regimes, damping oscillations and allowing for a more aggressive base step size when necessary without divergence. By combining this velocity-based regularizer for global damping with per-parameter scaling of Adam to create a hybrid optimizer, we demonstrate that VRAdam consistently exceeds the performance against standard optimizers including AdamW. We benchmark various tasks such as image classification, language modeling, image generation and generative modeling using diverse architectures and training methodologies including Convolutional Neural Networks (CNNs), Transformers, and GFlowNets.
- Abstract(参考訳): 本研究では、物理に着想を得た深層ニューラルネットワークのトレーニング用最適化器であるVelocity-Regularized Adam(VRAdam)を紹介し、その安定化効果を様々なシステムダイナミクスに与えて、運動エネルギーのクォート項からアイデアを引き出す。
ユビキタスアダムを含む以前のアルゴリズムは、トレーニング中に適応的な安定性の端で動作し、急激な振動と損失の収束を遅くする。
しかし、VRAdamは、速度に基づいて学習速度により高い順序のペナルティを加え、重み更新が大きくなるたびにアルゴリズムが自動的に減速する。
実際に,高速度環境下では実効的な動的学習速度が減少し,振動が減衰し,分散することなく,より攻撃的なベースステップサイズが可能であることが観察された。
この速度ベースレギュレータとAdamのパラメータごとのスケーリングを併用してハイブリッドオプティマイザを作成することで,AdamWを含む標準オプティマイザに対してVRAdamが一貫して性能を上回っていることを示す。
本稿では,CNN(Convolutional Neural Networks)やTransformer(トランスフォーマー),GFlowNets(GFlowNets)など,さまざまなアーキテクチャを用いた画像分類,言語モデリング,画像生成,生成モデリングなどのタスクをベンチマークする。
関連論文リスト
- MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.47014540413659]
深層ニューラルネットワークのための統合トレーニングフレームワークを提案する。
我々は,事前条件付き勾配最適化を利用するMARSの3つの例を紹介する。
その結果,MARSの実装はAdamより一貫して優れていた。
論文 参考訳(メタデータ) (2024-11-15T18:57:39Z) - Auto-Train-Once: Controller Network Guided Automatic Network Pruning from Scratch [72.26822499434446]
オートトレインオース (Auto-Train-Once, ATO) は、DNNの計算コストと記憶コストを自動的に削減するために設計された、革新的なネットワークプルーニングアルゴリズムである。
総合的な収束解析と広範な実験を行い,本手法が様々なモデルアーキテクチャにおける最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2024-03-21T02:33:37Z) - Read the Signs: Towards Invariance to Gradient Descent's Hyperparameter
Initialization [3.1153758106426603]
学習速度を$alpha$でローカライズする最適化メタアルゴリズムであるActiveLRを提案し,各エポックの勾配が符号を変更するか否かに応じて各エポックに適応する。
我々は、広く使われ、最近公開された勾配勾配勾配、すなわち運動量を持つSGD、AdamW、RAdam、AdaBeliefのアクティブバージョン(我々のもの)を実装している。
論文 参考訳(メタデータ) (2023-01-24T16:57:00Z) - The Underlying Correlated Dynamics in Neural Training [6.385006149689549]
ニューラルネットワークのトレーニングは、計算集約的なタスクである。
本稿では,パラメータのダイナミクスの相関に基づくモデルを提案する。
この表現は、基礎となるトレーニングダイナミクスの理解を深め、より良い加速技術を設計するための道を開くことができる。
論文 参考訳(メタデータ) (2022-12-18T08:34:11Z) - Flatter, faster: scaling momentum for optimal speedup of SGD [0.0]
ニューラルネットワークのトレーニングにおいて、勾配降下(SGD)とラベルノイズと運動量との相互作用から生じるトレーニングダイナミクスについて検討した。
運動量ハイパーパラメータ1-NISTbeta$を学習率で2/3$にスケーリングすると、一般化を犠牲にすることなく、最大で2/3$のトレーニングが加速することがわかった。
論文 参考訳(メタデータ) (2022-10-28T20:41:48Z) - Dynamics-aware Adversarial Attack of Adaptive Neural Networks [75.50214601278455]
適応型ニューラルネットワークの動的対向攻撃問題について検討する。
本稿では,LGM(Leaded Gradient Method)を提案する。
我々のLGMは、動的無意識攻撃法と比較して、優れた敵攻撃性能を達成している。
論文 参考訳(メタデータ) (2022-10-15T01:32:08Z) - Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。
この2つの設定の間には自然なシナジーがあることが示されています。
この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文 参考訳(メタデータ) (2021-11-25T19:59:33Z) - Training Deep Neural Networks with Adaptive Momentum Inspired by the
Quadratic Optimization [20.782428252187024]
重球運動量の最適選択に着想を得た新しい適応運動量を提案する。
提案した適応重球運動量は勾配降下(SGD)とアダムを改善することができる。
我々は、画像分類、言語モデリング、機械翻訳を含む幅広い機械学習ベンチマークにおいて、SGDとAdamの効率を新しい適応運動量で検証する。
論文 参考訳(メタデータ) (2021-10-18T07:03:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。