論文の概要: Spectral-factorized Positive-definite Curvature Learning for NN Training
- arxiv url: http://arxiv.org/abs/2502.06268v1
- Date: Mon, 10 Feb 2025 09:07:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:35:06.948942
- Title: Spectral-factorized Positive-definite Curvature Learning for NN Training
- Title(参考訳): NNトレーニングのためのスペクトル分解正定値曲率学習
- Authors: Wu Lin, Felix Dangel, Runa Eschenhagen, Juhan Bae, Richard E. Turner, Roger B. Grosse,
- Abstract要約: Adam(W) や Shampoo のような訓練手法は正定値の曲率行列を学習し、プレコンディショニングの前に逆根を適用する。
スペクトル分解正定曲率推定を動的に適用するリーマン最適化手法を提案する。
- 参考スコア(独自算出の注目度): 39.296923519945814
- License:
- Abstract: Many training methods, such as Adam(W) and Shampoo, learn a positive-definite curvature matrix and apply an inverse root before preconditioning. Recently, non-diagonal training methods, such as Shampoo, have gained significant attention; however, they remain computationally inefficient and are limited to specific types of curvature information due to the costly matrix root computation via matrix decomposition. To address this, we propose a Riemannian optimization approach that dynamically adapts spectral-factorized positive-definite curvature estimates, enabling the efficient application of arbitrary matrix roots and generic curvature learning. We demonstrate the efficacy and versatility of our approach in positive-definite matrix optimization and covariance adaptation for gradient-free optimization, as well as its efficiency in curvature learning for neural net training.
- Abstract(参考訳): Adam(W) や Shampoo のような多くの訓練手法は正定値の曲率行列を学習し、プレコンディショニングの前に逆根を適用する。
近年、シャンプーのような非対角的訓練法が注目されているが、計算的に非効率であり、行列分解によるコストのかかる行列根計算により、特定の種類の曲率情報に制限されている。
そこで本研究では,スペクトル分解正定値曲率推定を動的に適用し,任意の行列根と一般曲率学習の効率的な適用を可能にする,リーマン最適化手法を提案する。
本研究では, 正定値行列最適化と共分散適応による勾配自由度最適化の有効性と, ニューラルネットワーク学習における曲率学習の効率性を示す。
関連論文リスト
- Gradient-Variation Online Learning under Generalized Smoothness [56.38427425920781]
勾配変分オンライン学習は、オンライン関数の勾配の変化とともにスケールする後悔の保証を達成することを目的としている。
ニューラルネットワーク最適化における最近の取り組みは、一般化された滑らかさ条件を示唆し、滑らかさは勾配ノルムと相関する。
ゲームにおける高速収束と拡張逆最適化への応用について述べる。
論文 参考訳(メタデータ) (2024-08-17T02:22:08Z) - Operator SVD with Neural Networks via Nested Low-Rank Approximation [19.562492156734653]
本稿では, トラッピング特異値分解の低ランク近似に基づく新しい最適化フレームワークを提案する。
最上位の$L$特異値と特異関数を正しい順序で学習するためのエンフェンシングと呼ばれる新しい手法。
本稿では,計算物理学と機械学習のユースケースに対する提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-02-06T03:06:06Z) - Multi-objective Reinforcement Learning with Nonlinear Preferences: Provable Approximation for Maximizing Expected Scalarized Return [1.3162012586770577]
軌道上の非線形選好を用いた多目的強化学習について検討した。
非線形最適化のためのベルマン最適性の拡張形式を導出する。
アルゴリズムによって計算される最適ポリシーと代替基準との間には,かなりのギャップがあることが示される。
論文 参考訳(メタデータ) (2023-11-05T02:11:07Z) - Stochastic Gradient Descent for Gaussian Processes Done Right [86.83678041846971]
emphdone right -- 最適化とカーネルコミュニティからの具体的な洞察を使用するという意味で -- が、勾配降下は非常に効果的であることを示している。
本稿では,直感的に設計を記述し,設計選択について説明する。
本手法は,分子結合親和性予測のための最先端グラフニューラルネットワークと同程度にガウス過程の回帰を配置する。
論文 参考訳(メタデータ) (2023-10-31T16:15:13Z) - An Accelerated Block Proximal Framework with Adaptive Momentum for
Nonconvex and Nonsmooth Optimization [2.323238724742687]
非平滑および非平滑最適化のための適応モーメント(ABPL$+$)を有する加速ブロック近位線形フレームワークを提案する。
いくつかのアルゴリズムでは外挿ステップの潜在的な原因を解析し、比較プロセスの強化によってこの問題を解消する。
我々はアルゴリズムを勾配ステップと線形補間ステップの更新を含む任意のシナリオに拡張する。
論文 参考訳(メタデータ) (2023-08-23T13:32:31Z) - Neural incomplete factorization: learning preconditioners for the conjugate gradient method [2.899792823251184]
我々は、効率的なプレコンディショナーの生成を加速するためのデータ駆動型アプローチを開発する。
一般的に手動のプリコンディショナーをグラフニューラルネットワークの出力に置き換える。
本手法は, 行列の不完全分解を発生させ, 神経不完全分解(NeuralIF)と呼ばれる。
論文 参考訳(メタデータ) (2023-05-25T11:45:46Z) - Promises and Pitfalls of the Linearized Laplace in Bayesian Optimization [73.80101701431103]
線形化ラプラス近似(LLA)はベイズニューラルネットワークの構築に有効で効率的であることが示されている。
ベイズ最適化におけるLLAの有用性について検討し,その性能と柔軟性を強調した。
論文 参考訳(メタデータ) (2023-04-17T14:23:43Z) - Scalable Bayesian Meta-Learning through Generalized Implicit Gradients [64.21628447579772]
Inlicit Bayesian Meta-learning (iBaML) 法は、学習可能な事前のスコープを広げるだけでなく、関連する不確実性も定量化する。
解析誤差境界は、明示的よりも一般化された暗黙的勾配の精度と効率を示すために確立される。
論文 参考訳(メタデータ) (2023-03-31T02:10:30Z) - Local Quadratic Convergence of Stochastic Gradient Descent with Adaptive
Step Size [29.15132344744801]
本研究では,行列逆変換などの問題に対して,適応的なステップサイズを持つ勾配勾配の局所収束性を確立する。
これらの一階最適化法は線形あるいは線形収束を実現することができることを示す。
論文 参考訳(メタデータ) (2021-12-30T00:50:30Z) - Controllable Orthogonalization in Training DNNs [96.1365404059924]
直交性はディープニューラルネットワーク(DNN)のトレーニングに広く用いられている。
本稿では,ニュートン反復(ONI)を用いた計算効率が高く,数値的に安定な直交化法を提案する。
本稿では,画像分類ネットワークの性能向上のために,最適化の利点と表現能力の低下との間に最適なトレードオフを与えるために,直交性を効果的に制御する手法を提案する。
また、ONIは、スペクトル正規化と同様に、ネットワークのリプシッツ連続性を維持することにより、GAN(Generative Adversarial Network)のトレーニングを安定化させることを示した。
論文 参考訳(メタデータ) (2020-04-02T10:14:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。