論文の概要: Adaptive Methods through the Lens of SDEs: Theoretical Insights on the Role of Noise
- arxiv url: http://arxiv.org/abs/2411.15958v1
- Date: Sun, 24 Nov 2024 19:07:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:19:37.737978
- Title: Adaptive Methods through the Lens of SDEs: Theoretical Insights on the Role of Noise
- Title(参考訳): SDEのレンズによる適応的手法:騒音の役割に関する理論的考察
- Authors: Enea Monzio Compagnoni, Tianlin Liu, Rustem Islamov, Frank Norbert Proske, Antonio Orvieto, Aurelien Lucchi,
- Abstract要約: 本研究は, SignSGD, RMSprop(W), Adam(W) という適応適応型の新しいSDEを紹介する。
これらのSDEは、これらを定量的に正確に記述し、適応性、曲率ノイズ、勾配の間の複雑な関係を照らすのに役立つ。
私たちのアプローチは、ベストプラクティスや新しいスケーリングルールに関する貴重な洞察を提供できると考えています。
- 参考スコア(独自算出の注目度): 15.535139686653611
- License:
- Abstract: Despite the vast empirical evidence supporting the efficacy of adaptive optimization methods in deep learning, their theoretical understanding is far from complete. This work introduces novel SDEs for commonly used adaptive optimizers: SignSGD, RMSprop(W), and Adam(W). These SDEs offer a quantitatively accurate description of these optimizers and help illuminate an intricate relationship between adaptivity, gradient noise, and curvature. Our novel analysis of SignSGD highlights a noteworthy and precise contrast to SGD in terms of convergence speed, stationary distribution, and robustness to heavy-tail noise. We extend this analysis to AdamW and RMSpropW, for which we observe that the role of noise is much more complex. Crucially, we support our theoretical analysis with experimental evidence by verifying our insights: this includes numerically integrating our SDEs using Euler-Maruyama discretization on various neural network architectures such as MLPs, CNNs, ResNets, and Transformers. Our SDEs accurately track the behavior of the respective optimizers, especially when compared to previous SDEs derived for Adam and RMSprop. We believe our approach can provide valuable insights into best training practices and novel scaling rules.
- Abstract(参考訳): ディープラーニングにおける適応最適化手法の有効性を支持する膨大な実証的証拠にもかかわらず、それらの理論的理解は完璧には程遠い。
本研究は、SignSGD、RMSprop(W)、Adam(W) といった適応オプティマイザに新しいSDEを導入する。
これらのSDEは、これらのオプティマイザの定量的に正確な記述を提供し、適応性、勾配雑音、曲率の間の複雑な関係を照らすのに役立つ。
SignSGDの新たな解析は、収束速度、定常分布、重テールノイズに対する頑健性といった点において、SGDと顕著で正確な対比を示すものである。
我々はこの分析をAdamWとRMSpropWに拡張し、ノイズの役割がずっと複雑であることを示した。
この中には、MPP、CNN、ResNets、Transformersなど、さまざまなニューラルネットワークアーキテクチャ上でEuler-Maruyama離散化を使用して、SDEを数値的に統合する機能が含まれています。
我々のSDEは、AdamやRMSpropから派生した以前のSDEと比較して、各オプティマイザの挙動を正確に追跡する。
私たちのアプローチは、ベストプラクティスや新しいスケーリングルールに関する貴重な洞察を提供できると考えています。
関連論文リスト
- PIG: Physics-Informed Gaussians as Adaptive Parametric Mesh Representations [5.4087282763977855]
ニューラルネットワークを用いた部分微分方程式(PDE)の近似は、大きく進歩している。
PINNは、高周波および非線形成分の学習に苦慮しているMLP(Multi-Layer Perceptrons)のスペクトルバイアスによって、限られた精度に悩まされることが多い。
本稿では,ガウス関数を用いた特徴埋め込みと軽量ニューラルネットワークを組み合わせた物理インフォームドガウス(PIG)を提案する。
論文 参考訳(メタデータ) (2024-12-08T16:58:29Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Adaptive Friction in Deep Learning: Enhancing Optimizers with Sigmoid and Tanh Function [0.0]
我々は適応摩擦係数を統合する2つの新しい勾配であるsigSignGradとtanhSignGradを紹介する。
我々の理論解析は,摩擦係数Sの広帯域調整能力を示す。
ResNet50 と ViT アーキテクチャを用いた CIFAR-10, Mini-Image-Net 実験により,提案手法の優れた性能が確認された。
論文 参考訳(メタデータ) (2024-08-07T03:20:46Z) - Adam with model exponential moving average is effective for nonconvex optimization [45.242009309234305]
本稿では,Adamのような適応最適化アルゴリズムと(II)指数移動平均(EMA)モデルという,大規模かつ複雑なモデルのトレーニングのための2つの現代的な最適化手法に関する理論的解析を行う。
論文 参考訳(メタデータ) (2024-05-28T14:08:04Z) - Variational Inference for SDEs Driven by Fractional Noise [16.434973057669676]
マルコフ近似分数的ブラウン運動(fBM)によって駆動される(神経)微分方程式(SDE)の推論を行うための新しい変分フレームワークを提案する。
本稿では, ニューラルネットワークを用いて, 変動後部におけるドリフト, 拡散, 制御条件を学習し, ニューラルSDEの変分学習を実現することを提案する。
論文 参考訳(メタデータ) (2023-10-19T17:59:21Z) - Bidirectional Looking with A Novel Double Exponential Moving Average to
Adaptive and Non-adaptive Momentum Optimizers [109.52244418498974]
我々は,新しいtextscAdmeta(textbfADouble指数textbfMov averagtextbfE textbfAdaptiveおよび非適応運動量)フレームワークを提案する。
我々は、textscAdmetaR と textscAdmetaS の2つの実装を提供し、前者は RAdam を、後者は SGDM をベースとしています。
論文 参考訳(メタデータ) (2023-07-02T18:16:06Z) - On the SDEs and Scaling Rules for Adaptive Gradient Algorithms [45.007261870784475]
微分方程式(SDE)としての勾配 Descent (SGD) の適用により、研究者は連続的な最適化軌道の研究の利点を享受できるようになった。
本稿では、RMSpropとAdamのSDE近似を導出し、理論上の正確性を保証するとともに、それらの適用性を検証する。
論文 参考訳(メタデータ) (2022-05-20T16:39:03Z) - Optimizing Information-theoretical Generalization Bounds via Anisotropic
Noise in SGLD [73.55632827932101]
SGLDにおけるノイズ構造を操作することにより,情報理論の一般化を最適化する。
低経験的リスクを保証するために制約を課すことで、最適なノイズ共分散が期待される勾配共分散の平方根であることを証明する。
論文 参考訳(メタデータ) (2021-10-26T15:02:27Z) - Robust Optimal Transport with Applications in Generative Modeling and
Domain Adaptation [120.69747175899421]
ワッサーシュタインのような最適輸送(OT)距離は、GANやドメイン適応のようないくつかの領域で使用されている。
本稿では,現代のディープラーニングアプリケーションに適用可能な,ロバストなOT最適化の計算効率のよい2つの形式を提案する。
提案手法では, ノイズの多いデータセット上で, 外部分布で劣化したGANモデルをトレーニングすることができる。
論文 参考訳(メタデータ) (2020-10-12T17:13:40Z) - Stochastic-Sign SGD for Federated Learning with Theoretical Guarantees [49.91477656517431]
量子化に基づく解法は、フェデレートラーニング(FL)において広く採用されている。
上記のプロパティをすべて享受する既存のメソッドはありません。
本稿では,SIGNSGDに基づく直感的かつ理論的に簡易な手法を提案し,そのギャップを埋める。
論文 参考訳(メタデータ) (2020-02-25T15:12:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。