論文の概要: Natural gradient descent with momentum
- arxiv url: http://arxiv.org/abs/2604.15554v1
- Date: Thu, 16 Apr 2026 22:09:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.663799
- Title: Natural gradient descent with momentum
- Title(参考訳): 運動量による自然勾配降下
- Authors: Anthony Nouy, Agustín Somacal,
- Abstract要約: ヘビーボールやネステロフのような古典的慣性力学手法の自然なバージョンを導入する。
この研究は、非線形モデルクラスを扱う際に学習プロセスを改善する方法を示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider the problem of approximating a function by an element of a nonlinear manifold which admits a differentiable parametrization, typical examples being neural networks with differentiable activation functions or tensor networks. Natural gradient descent (NGD) for the optimization of a loss function can be seen as a preconditioned gradient descent where updates in the parameter space are driven by a functional perspective. In a spirit similar to Newton's method, a NGD step uses, instead of the Hessian, the Gram matrix of the generating system of the tangent space to the approximation manifold at the current iterate, with respect to a suitable metric. This corresponds to a locally optimal update in function space, following a projected gradient onto the tangent space to the manifold. Still, both gradient and natural gradient descent methods get stuck in local minima. Furthermore, when the model class is a nonlinear manifold or the loss function is not ideally conditioned (e.g., the KL-divergence for density estimation, or a norm of the residual of a partial differential equation in physics informed learning), even the natural gradient might yield non-optimal directions at each step. This work introduces a natural version of classical inertial dynamic methods like Heavy-Ball or Nesterov and show how it can improve the learning process when working with nonlinear model classes.
- Abstract(参考訳): 微分可能パラメトリゼーションを許容する非線形多様体の要素による関数近似の問題を考える。
損失関数の最適化のための自然勾配降下(NGD)は、パラメータ空間の更新を関数的視点で駆動する事前条件付き勾配降下と見なすことができる。
ニュートンの方法に類似した精神では、NGD ステップは、ヘシアンの代わりに、接空間の生成系のグラム行列を現在のイテレートでの近似多様体に、適切な計量に関して使用する。
これは函数空間の局所的最適更新に対応し、多様体への接空間への射影勾配に従う。
それでも、勾配降下法と自然勾配降下法の両方が局所的なミニマで立ち往生している。
さらに、モデルクラスが非線形多様体である場合や損失関数が理想的に条件付けされていない場合(例えば、密度推定のためのKL偏差、あるいは物理学情報学習における偏微分方程式の残差のノルム)、自然勾配でさえ各ステップで最適でない方向が得られる。
この研究は、Heavy-BallやNesterovのような古典的慣性動的手法の自然なバージョンを導入し、非線形モデルクラスを扱う際に学習プロセスを改善する方法を示している。
関連論文リスト
- Natural Riemannian gradient for learning functional tensor networks [0.08999666725996974]
低ランク機能木テンソルネットワーク(TTN)を用いた機械学習タスクを学習モデルとして検討する。
我々のフレームワークは、関数TTNを表現するための因子化と多様体ベースのアプローチの両方に適用できる。
論文 参考訳(メタデータ) (2026-04-10T12:25:20Z) - Gradient Descent as a Perceptron Algorithm: Understanding Dynamics and Implicit Acceleration [67.12978375116599]
勾配降下(GD)のステップが一般化されたパーセプトロンアルゴリズムのステップに還元されることを示す。
これは、ニューラルネットワークで観測される最適化力学と暗黙の加速現象を説明するのに役立つ。
論文 参考訳(メタデータ) (2025-12-12T14:16:35Z) - Mathematical analysis of the gradients in deep learning [3.3123773366516645]
勾配関数は、コスト汎函数が連続的に微分可能なすべての開集合上のコスト汎函数の標準勾配と一致しなければならないことを示す。
一般化された勾配函数は、コスト汎函数が連続的に微分可能なすべての開集合上のコスト汎函数の標準勾配と一致しなければならない。
論文 参考訳(メタデータ) (2025-01-26T19:11:57Z) - Limit Theorems for Stochastic Gradient Descent with Infinite Variance [51.4853131023238]
この勾配降下アルゴリズムは、適切なL'evy過程によって駆動されるオルンシュタイン-ルンシュタイン過程の定常分布として特徴付けられることを示す。
また、これらの結果の線形回帰モデルおよびロジスティック回帰モデルへの応用についても検討する。
論文 参考訳(メタデータ) (2024-10-21T09:39:10Z) - BrowNNe: Brownian Nonlocal Neurons & Activation Functions [0.0]
低トレーニングデータにおけるブラウンニューラルアクティベーション関数がReLUに勝っていることを示す。
本実験は,低トレーニングデータにおけるブラウン神経活性化機能の優れた機能を示す。
論文 参考訳(メタデータ) (2024-06-21T19:40:30Z) - A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - Neural Gradient Learning and Optimization for Oriented Point Normal
Estimation [53.611206368815125]
本研究では,3次元点雲から勾配ベクトルを一貫した向きで学習し,正規推定を行うためのディープラーニング手法を提案する。
局所平面幾何に基づいて角距離場を学習し、粗勾配ベクトルを洗練する。
本手法は,局所特徴記述の精度と能力の一般化を図りながら,グローバル勾配近似を効率的に行う。
論文 参考訳(メタデータ) (2023-09-17T08:35:11Z) - Depth Without the Magic: Inductive Bias of Natural Gradient Descent [1.020554144865699]
勾配降下では、モデルをパラメータ化する方法を変えることで、大幅に異なる最適化軌道が導かれる。
深い線形ネットワークにおける自然勾配流の挙動を,ロジスティックな損失と深い行列因数分解の下で分離可能な分類のために特徴づける。
本研究では,自然勾配降下が一般化に失敗する学習問題が存在する一方で,適切なアーキテクチャによる勾配降下が良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-22T21:20:10Z) - A proof of convergence for gradient descent in the training of
artificial neural networks for constant target functions [3.4792548480344254]
勾配降下法のリスク関数は, 実際に0に収束することを示す。
この作業の重要な貢献は、ANNパラメータの勾配フローシステムのLyapunov関数を明示的に指定することです。
論文 参考訳(メタデータ) (2021-02-19T13:33:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。