論文の概要: Gradient Regularized Natural Gradients
- arxiv url: http://arxiv.org/abs/2601.18420v1
- Date: Mon, 26 Jan 2026 12:25:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.819419
- Title: Gradient Regularized Natural Gradients
- Title(参考訳): 勾配正規化自然勾配
- Authors: Satya Prakash Dash, Hossein Abdi, Wei Pan, Samuel Kaski, Mingfei Sun,
- Abstract要約: 自然な勾配更新と明示的な正規化を統合したスケーラブルな2階勾配群を提案する。
我々は、GRNGの収束保証を確立し、勾配正則化が安定性を改善し、大域的最小値への収束を可能にすることを示す。
- 参考スコア(独自算出の注目度): 20.85716825925689
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Gradient regularization (GR) has been shown to improve the generalizability of trained models. While Natural Gradient Descent has been shown to accelerate optimization in the initial phase of training, little attention has been paid to how the training dynamics of second-order optimizers can benefit from GR. In this work, we propose Gradient-Regularized Natural Gradients (GRNG), a family of scalable second-order optimizers that integrate explicit gradient regularization with natural gradient updates. Our framework provides two complementary algorithms: a frequentist variant that avoids explicit inversion of the Fisher Information Matrix (FIM) via structured approximations, and a Bayesian variant based on a Regularized-Kalman formulation that eliminates the need for FIM inversion entirely. We establish convergence guarantees for GRNG, showing that gradient regularization improves stability and enables convergence to global minima. Empirically, we demonstrate that GRNG consistently enhances both optimization speed and generalization compared to first-order methods (SGD, AdamW) and second-order baselines (K-FAC, Sophia), with strong results on vision and language benchmarks. Our findings highlight gradient regularization as a principled and practical tool to unlock the robustness of natural gradient methods for large-scale deep learning.
- Abstract(参考訳): グラディエント正規化(GR)は、訓練されたモデルの一般化性を改善することが示されている。
Natural Gradient Descentは、トレーニングの初期段階で最適化を加速することが示されているが、二階最適化器のトレーニングダイナミクスがGRの恩恵を受けるには、ほとんど注意が払われていない。
本研究では,グラディエント規則化自然勾配(GRNG, Gradient-Regularized Natural Gradients)を提案する。
我々のフレームワークは2つの補完的アルゴリズムを提供する: 構造的近似によるフィッシャー情報行列(FIM)の明示的な逆転を避ける頻繁な変種と、FIMの逆転を完全に排除する正規化カルマンの定式化に基づくベイズ変種である。
我々はGRNGの収束保証を確立し、勾配正則化が安定性を向上し、大域的最小値への収束を可能にすることを示す。
実験により,GRNGは一階法(SGD,AdamW)や二階法(K-FAC,Sophia)と比較して最適化速度と一般化の両面を一貫して向上し,視覚と言語ベンチマークに強い結果が得られた。
本研究は,大規模深層学習のための自然勾配法のロバスト性を解き放つための,原則的かつ実践的なツールとして,勾配正規化に注目した。
関連論文リスト
- Provably Convergent Decentralized Optimization over Directed Graphs under Generalized Smoothness [1.5892054128426507]
ヘッセンノルムは勾配ノルムとともに線型に成長することを許され、したがってリプシッツの滑らかさを超えて急速に変化する勾配を調節する。
我々は、指向性通信グラフ上の正確な収束を保証するため、勾配追従手法と勾配クリッピングを統合する。
本研究の結果は, 勾配差が非有界である場合でも有効であり, 提案手法は現実的な異種データ環境に適用可能である。
論文 参考訳(メタデータ) (2026-01-07T04:25:33Z) - Gradient-Normalized Smoothness for Optimization with Approximate Hessians [37.1630298053787]
本研究では, 近似2次情報と勾配正規化手法を組み合わせることで, 高速なグローバル収束率を実現するアルゴリズムを開発した。
我々は,Hessianを用いたロジスティック回帰問題およびFisher and Gaussを用いた非連続ソフトコンバージェンス最適化における結果の直接的応用を示す。
論文 参考訳(メタデータ) (2025-06-16T17:19:34Z) - Gradient-Variation Online Learning under Generalized Smoothness [56.38427425920781]
勾配変分オンライン学習は、オンライン関数の勾配の変化とともにスケールする後悔の保証を達成することを目的としている。
ニューラルネットワーク最適化における最近の取り組みは、一般化された滑らかさ条件を示唆し、滑らかさは勾配ノルムと相関する。
ゲームにおける高速収束と拡張逆最適化への応用について述べる。
論文 参考訳(メタデータ) (2024-08-17T02:22:08Z) - Signal Processing Meets SGD: From Momentum to Filter [6.751292200515355]
ディープラーニングでは、勾配降下(SGD)とその運動量に基づく変種が最適化に広く利用されている。
本稿では,信号処理レンズを用いて勾配挙動を解析し,更新に影響を与える重要な要因を分離する。
本稿では,ワイナーフィルタの原理に基づく新しいSGDF手法を提案する。
論文 参考訳(メタデータ) (2023-11-06T01:41:46Z) - Neural Gradient Learning and Optimization for Oriented Point Normal
Estimation [53.611206368815125]
本研究では,3次元点雲から勾配ベクトルを一貫した向きで学習し,正規推定を行うためのディープラーニング手法を提案する。
局所平面幾何に基づいて角距離場を学習し、粗勾配ベクトルを洗練する。
本手法は,局所特徴記述の精度と能力の一般化を図りながら,グローバル勾配近似を効率的に行う。
論文 参考訳(メタデータ) (2023-09-17T08:35:11Z) - NAG-GS: Semi-Implicit, Accelerated and Robust Stochastic Optimizer [45.47667026025716]
2つの重要な要素に依存した、新しく、堅牢で、加速された反復を提案する。
NAG-GSと呼ばれる手法の収束と安定性は、まず広範に研究されている。
我々は、NAG-arityが、重量減衰を伴う運動量SGDや機械学習モデルのトレーニングのためのAdamWといった最先端の手法と競合していることを示す。
論文 参考訳(メタデータ) (2022-09-29T16:54:53Z) - Leveraging Non-uniformity in First-order Non-convex Optimization [93.6817946818977]
目的関数の非一様洗練は、emphNon-uniform Smoothness(NS)とemphNon-uniform Lojasiewicz inequality(NL)につながる
新しい定義は、古典的な$Omega (1/t2)$下界よりも早く大域的最適性に収束する新しい幾何学的一階法を刺激する。
論文 参考訳(メタデータ) (2021-05-13T04:23:07Z) - AsymptoticNG: A regularized natural gradient optimization algorithm with
look-ahead strategy [37.638447128733546]
自然勾配(ANG)とよばれるルックアヘッド戦略を持つ正規化自然勾配を示す。
ANGはNGとユークリッド勾配を動的にアセンブルし、NGの強度を使って新しい方向に沿ってパラメータを更新する。
検証実験により、ANGは2次速度でスムーズかつ安定に更新でき、より良い性能が得られることが示された。
論文 参考訳(メタデータ) (2020-12-24T03:03:10Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。