論文の概要: Natural Gradient Methods: Perspectives, Efficient-Scalable
Approximations, and Analysis
- arxiv url: http://arxiv.org/abs/2303.05473v1
- Date: Mon, 6 Mar 2023 04:03:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-10 13:35:50.352775
- Title: Natural Gradient Methods: Perspectives, Efficient-Scalable
Approximations, and Analysis
- Title(参考訳): 自然グラディエント法:展望,効率的なスケーラブル近似,解析
- Authors: Rajesh Shrestha
- Abstract要約: Natural Gradient Descentは、情報幾何学によって動機付けられた2次最適化手法である。
一般的に使用されるヘッセン語の代わりにフィッシャー情報マトリックスを使用している。
2階法であることは、膨大な数のパラメータとデータを扱う問題で直接使用されることが不可能である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural Gradient Descent, a second-degree optimization method motivated by
the information geometry, makes use of the Fisher Information Matrix instead of
the Hessian which is typically used. However, in many cases, the Fisher
Information Matrix is equivalent to the Generalized Gauss-Newton Method, that
both approximate the Hessian. It is an appealing method to be used as an
alternative to stochastic gradient descent, potentially leading to faster
convergence. However, being a second-order method makes it infeasible to be
used directly in problems with a huge number of parameters and data. This is
evident from the community of deep learning sticking with the stochastic
gradient descent method since the beginning. In this paper, we look at the
different perspectives on the natural gradient method, study the current
developments on its efficient-scalable empirical approximations, and finally
examine their performance with extensive experiments.
- Abstract(参考訳): 情報幾何に動機づけられた2次最適化手法である自然勾配降下は、一般的に用いられるヘッシアンの代わりにフィッシャー情報行列を利用する。
しかし、多くの場合、フィッシャー情報行列は一般化されたガウス・ニュートン法と同値であり、どちらもヘッセンの近似である。
これは確率勾配降下の代替として用いられる魅力的な方法であり、より高速な収束につながる可能性がある。
しかし、二階法であるため、膨大な数のパラメータやデータを扱う問題で直接使用することは不可能である。
これは、初めから確率的勾配降下法に固執する深層学習のコミュニティから明らかである。
本稿では,自然勾配法に関する異なる視点を考察し,その効率・スケーリング可能な経験的近似の現況を考察し,その性能を実験的に検証する。
関連論文リスト
- A Historical Trajectory Assisted Optimization Method for Zeroth-Order Federated Learning [24.111048817721592]
フェデレートラーニングは分散勾配降下技術に大きく依存している。
勾配情報が得られない状況では、勾配をゼロ次情報から推定する必要がある。
勾配推定法を改善するための非等方的サンプリング法を提案する。
論文 参考訳(メタデータ) (2024-09-24T10:36:40Z) - Information Geometry and Beta Link for Optimizing Sparse Variational Student-t Processes [6.37512592611305]
勾配勾配勾配を用いた実世界のデータセットの計算効率と柔軟性を向上させるために,学生Tプロセスが提案されている。
アダムのような伝統的な勾配降下法はパラメータ空間の幾何を十分に活用しない可能性があり、収束と準最適性能を遅くする可能性がある。
我々は,情報幾何学から自然勾配法を適用し,学生-tプロセスの変分パラメータ最適化を行う。
論文 参考訳(メタデータ) (2024-08-13T07:53:39Z) - An Adaptive Stochastic Gradient Method with Non-negative Gauss-Newton Stepsizes [17.804065824245402]
機械学習の応用では、各損失関数は非負であり、平方根とその実数値平方根の構成として表すことができる。
本稿では, ガウス・ニュートン法やレフスカルト法を適用して, 滑らかだが非負な関数の平均を最小化する方法を示す。
論文 参考訳(メタデータ) (2024-07-05T08:53:06Z) - Stochastic Gradient Descent for Gaussian Processes Done Right [86.83678041846971]
emphdone right -- 最適化とカーネルコミュニティからの具体的な洞察を使用するという意味で -- が、勾配降下は非常に効果的であることを示している。
本稿では,直感的に設計を記述し,設計選択について説明する。
本手法は,分子結合親和性予測のための最先端グラフニューラルネットワークと同程度にガウス過程の回帰を配置する。
論文 参考訳(メタデータ) (2023-10-31T16:15:13Z) - Neural Gradient Learning and Optimization for Oriented Point Normal
Estimation [53.611206368815125]
本研究では,3次元点雲から勾配ベクトルを一貫した向きで学習し,正規推定を行うためのディープラーニング手法を提案する。
局所平面幾何に基づいて角距離場を学習し、粗勾配ベクトルを洗練する。
本手法は,局所特徴記述の精度と能力の一般化を図りながら,グローバル勾配近似を効率的に行う。
論文 参考訳(メタデータ) (2023-09-17T08:35:11Z) - One-step corrected projected stochastic gradient descent for statistical estimation [49.1574468325115]
これは、Fisherスコアリングアルゴリズムの1ステップで修正されたログ様関数の予測勾配勾配に基づいている。
理論およびシミュレーションにより、平均勾配勾配や適応勾配勾配の通常の勾配勾配の代替として興味深いものであることを示す。
論文 参考訳(メタデータ) (2023-06-09T13:43:07Z) - Local Quadratic Convergence of Stochastic Gradient Descent with Adaptive
Step Size [29.15132344744801]
本研究では,行列逆変換などの問題に対して,適応的なステップサイズを持つ勾配勾配の局所収束性を確立する。
これらの一階最適化法は線形あるいは線形収束を実現することができることを示す。
論文 参考訳(メタデータ) (2021-12-30T00:50:30Z) - Leveraging Non-uniformity in First-order Non-convex Optimization [93.6817946818977]
目的関数の非一様洗練は、emphNon-uniform Smoothness(NS)とemphNon-uniform Lojasiewicz inequality(NL)につながる
新しい定義は、古典的な$Omega (1/t2)$下界よりも早く大域的最適性に収束する新しい幾何学的一階法を刺激する。
論文 参考訳(メタデータ) (2021-05-13T04:23:07Z) - Two-Level K-FAC Preconditioning for Deep Learning [7.699428789159717]
ディープラーニングの文脈では、グラディエントDescentの収束を加速するために、多くの最適化手法が勾配共分散情報を使用する。
特に、アダグラード(Adagrad)から始まり、一見無限に現れる研究のラインは、いわゆる経験的フィッシャー行列の対角近似の使用を提唱している。
特に成功した方法はK-FAC(Kronecker-ed block-factored preconditioner)と呼ばれる方法である。
論文 参考訳(メタデータ) (2020-11-01T17:54:21Z) - SLEIPNIR: Deterministic and Provably Accurate Feature Expansion for
Gaussian Process Regression with Derivatives [86.01677297601624]
本稿では,2次フーリエ特徴に基づく導関数によるGP回帰のスケーリング手法を提案する。
我々は、近似されたカーネルと近似された後部の両方に適用される決定論的、非漸近的、指数関数的に高速な崩壊誤差境界を証明した。
論文 参考訳(メタデータ) (2020-03-05T14:33:20Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。