論文の概要: Variational Stochastic Gradient Descent for Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2404.06549v2
- Date: Fri, 18 Apr 2025 10:32:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-28 23:49:36.427715
- Title: Variational Stochastic Gradient Descent for Deep Neural Networks
- Title(参考訳): 深部ニューラルネットワークにおける確率勾配の変動
- Authors: Haotian Chen, Anna Kuzina, Babak Esmaeili, Jakub M Tomczak,
- Abstract要約: 変分勾配Descent (VSGD) は、効率的な勾配に基づく画像最適化手法である。
我々は、VSGDがAdamとSGDを2つの分類データセットと4つのディープニューラルネットワークアーキテクチャで上回っていることを示す。
- 参考スコア(独自算出の注目度): 16.96187187108041
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current state-of-the-art optimizers are adaptive gradient-based optimization methods such as Adam. Recently, there has been an increasing interest in formulating gradient-based optimizers in a probabilistic framework for better modeling the uncertainty of the gradients. Here, we propose to combine both approaches, resulting in the Variational Stochastic Gradient Descent (VSGD) optimizer. We model gradient updates as a probabilistic model and utilize stochastic variational inference (SVI) to derive an efficient and effective update rule. Further, we show how our VSGD method relates to other adaptive gradient-based optimizers like Adam. Lastly, we carry out experiments on two image classification datasets and four deep neural network architectures, where we show that VSGD outperforms Adam and SGD.
- Abstract(参考訳): 現在の最先端オプティマイザは、Adamのような適応的勾配に基づく最適化手法である。
近年,勾配の不確かさをモデル化するための確率的フレームワークとして,勾配に基づく最適化手法の定式化への関心が高まっている。
本稿では,2つのアプローチを組み合わせることを提案する。その結果,VSGD最適化が実現される。
本研究では,確率的モデルとして勾配更新をモデル化し,確率的変動推論(SVI)を用いて効率的な更新規則を導出する。
さらに、我々のVSGD手法が、Adamのような他の適応勾配に基づく最適化手法とどのように関係しているかを示す。
最後に、2つの画像分類データセットと4つのディープニューラルネットワークアーキテクチャの実験を行い、VSGDがAdamとSGDより優れていることを示す。
関連論文リスト
- Architect Your Landscape Approach (AYLA) for Optimizations in Deep Learning [0.0]
グラディエントDescent(DSG)とその変種(ADAMなど)はディープラーニングの最適化の基礎となっている。
本稿では適応性と効率性を向上する新しい最適化手法であるAYLAを紹介する。
論文 参考訳(メタデータ) (2025-04-02T16:31:39Z) - Refining Alignment Framework for Diffusion Models with Intermediate-Step Preference Ranking [50.325021634589596]
拡散モデルと人間の嗜好を整合させるためのTalored Optimization Preference(TailorPO)フレームワークを提案する。
提案手法は,ステップワイド報酬に基づいて,中間雑音のサンプルを直接ランク付けし,勾配方向の問題を効果的に解決する。
実験結果から,本手法は審美的,人為的な画像生成能力を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2025-02-01T16:08:43Z) - Revisiting the Initial Steps in Adaptive Gradient Descent Optimization [6.468625143772815]
Adamのような適応的な勾配最適化手法は、さまざまな機械学習タスクにわたるディープニューラルネットワークのトレーニングで広く使われている。
これらの手法は、降下勾配 (SGD) と比較して最適下一般化に苦しむことが多く、不安定性を示す。
非ゼロ値で2階モーメント推定を初期化する。
論文 参考訳(メタデータ) (2024-12-03T04:28:14Z) - MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.47014540413659]
Adam、Adam、およびそれらの変種のような大規模な勾配アルゴリズムは、この種のトレーニングの開発の中心となっている。
本稿では,事前条件付き勾配最適化手法と,スケールドモーメント手法による分散低減を両立させる枠組みを提案する。
論文 参考訳(メタデータ) (2024-11-15T18:57:39Z) - WarpAdam: A new Adam optimizer based on Meta-Learning approach [0.0]
本研究ではメタラーニングからAdamへの'ウォード勾配下降'の概念を融合させる革新的なアプローチを紹介する。
適応行列 P 内に学習可能な歪み行列 P を導入することにより,多様なデータ分布にまたがるモデルの能力を高めることを目指す。
本研究は,理論的洞察と実証的評価を通じて,この新たなアプローチの可能性を示すものである。
論文 参考訳(メタデータ) (2024-09-06T12:51:10Z) - StochGradAdam: Accelerating Neural Networks Training with Stochastic Gradient Sampling [0.0]
我々はAdamアルゴリズムの新たな拡張であるStochGradAdamを紹介し、勾配サンプリング手法を取り入れた。
StochGradAdamは、イテレーション毎の勾配更新が少ない場合でも、Adamに匹敵する、あるいは優れたパフォーマンスを実現している。
その結果,このアプローチは大規模モデルやデータセットに特に有効であることが示唆された。
論文 参考訳(メタデータ) (2023-10-25T22:45:31Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - A Control Theoretic Framework for Adaptive Gradient Optimizers in
Machine Learning [0.6526824510982802]
適応勾配法はディープニューラルネットワークの最適化に人気がある。
最近の例にはAdaGradとAdamがある。
我々は適応的勾配法のための汎用的なフレームワークを開発する。
論文 参考訳(メタデータ) (2022-06-04T17:55:33Z) - Can we learn gradients by Hamiltonian Neural Networks? [68.8204255655161]
本稿では,勾配を学習するODEニューラルネットワークに基づくメタラーナを提案する。
提案手法は,LLUアクティベーションを最適化したMLMとMNISTデータセットにおいて,LSTMに基づくメタラーナーよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-10-31T18:35:10Z) - Exploiting Adam-like Optimization Algorithms to Improve the Performance
of Convolutional Neural Networks [82.61182037130405]
勾配降下(SGD)は深いネットワークを訓練するための主要なアプローチです。
本研究では,現在と過去の勾配の違いに基づいて,Adamに基づく変分を比較する。
resnet50を勾配降下訓練したネットワークのアンサンブルと融合実験を行った。
論文 参考訳(メタデータ) (2021-03-26T18:55:08Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of
Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。
これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文 参考訳(メタデータ) (2020-06-21T21:47:43Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Weighted Aggregating Stochastic Gradient Descent for Parallel Deep
Learning [8.366415386275557]
解決策には、ニューラルネットワークモデルにおける最適化のための目的関数の修正が含まれる。
本稿では,地方労働者のパフォーマンスに基づく分散型重み付けアグリゲーション方式を提案する。
提案手法を検証するため,提案手法をいくつかの一般的なアルゴリズムと比較した。
論文 参考訳(メタデータ) (2020-04-07T23:38:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。