論文の概要: Understanding Approximate Fisher Information for Fast Convergence of
Natural Gradient Descent in Wide Neural Networks
- arxiv url: http://arxiv.org/abs/2010.00879v3
- Date: Mon, 7 Dec 2020 06:36:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 01:15:29.133410
- Title: Understanding Approximate Fisher Information for Fast Convergence of
Natural Gradient Descent in Wide Neural Networks
- Title(参考訳): 広域ニューラルネットワークにおける自然勾配の高速収束のための近似的漁業情報理解
- Authors: Ryo Karakida and Kazuki Osawa
- Abstract要約: 自然グラディエント蛍光(NGD)は降下勾配ダイナミクスの収束を加速する。
計算コストが高いため、大規模ディープニューラルネットワークでは近似が必要である。
実験的な研究により、近似的なフィッシャー情報を持つNGD法が実際に十分に高速に収束していることが確認された。
- 参考スコア(独自算出の注目度): 13.572168969227011
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural Gradient Descent (NGD) helps to accelerate the convergence of
gradient descent dynamics, but it requires approximations in large-scale deep
neural networks because of its high computational cost. Empirical studies have
confirmed that some NGD methods with approximate Fisher information converge
sufficiently fast in practice. Nevertheless, it remains unclear from the
theoretical perspective why and under what conditions such heuristic
approximations work well. In this work, we reveal that, under specific
conditions, NGD with approximate Fisher information achieves the same fast
convergence to global minima as exact NGD. We consider deep neural networks in
the infinite-width limit, and analyze the asymptotic training dynamics of NGD
in function space via the neural tangent kernel. In the function space, the
training dynamics with the approximate Fisher information are identical to
those with the exact Fisher information, and they converge quickly. The fast
convergence holds in layer-wise approximations; for instance, in block diagonal
approximation where each block corresponds to a layer as well as in block
tri-diagonal and K-FAC approximations. We also find that a unit-wise
approximation achieves the same fast convergence under some assumptions. All of
these different approximations have an isotropic gradient in the function
space, and this plays a fundamental role in achieving the same convergence
properties in training. Thus, the current study gives a novel and unified
theoretical foundation with which to understand NGD methods in deep learning.
- Abstract(参考訳): Natural Gradient Descent (NGD)は勾配降下ダイナミクスの収束を加速するが、計算コストが高いため、大規模ディープニューラルネットワークでは近似を必要とする。
実験的な研究により、近似フィッシャー情報を持つNGD法が実際に十分に早く収束していることが確認された。
しかし、なぜそのようなヒューリスティック近似がうまく機能するのかという理論的な観点からは、いまだに明らかではない。
本研究では,特定の条件下では,漁獲情報に近似したngdが正確なngdと同程度の高速収束を実現することを明らかにする。
無限幅限界における深部ニューラルネットワークを考察し、ニューラルタンジェントカーネルを介して関数空間におけるNGDの漸近的トレーニングダイナミクスを解析する。
関数空間では、近似フィッシャー情報とトレーニングダイナミクスは、正確なフィッシャー情報を持つものと同一であり、それらは迅速に収束する。
例えばブロック対角近似では、各ブロックが層に対応し、ブロック三対角およびK-FAC近似では、高速収束が成り立つ。
また、単位近似はいくつかの仮定の下で同じ高速収束を達成する。
これらの異なる近似はすべて関数空間において等方勾配を持ち、トレーニングにおいて同じ収束特性を達成する上で重要な役割を果たす。
そこで本研究では,深層学習におけるngd法を理解するための新しい統一的理論的基礎を提示する。
関連論文リスト
- Approximation Results for Gradient Descent trained Neural Networks [0.0]
ネットワークは完全に接続された一定の深さ増加幅である。
連続カーネルエラーノルムは、滑らかな関数に必要な自然な滑らかさの仮定の下での近似を意味する。
論文 参考訳(メタデータ) (2023-09-09T18:47:55Z) - Speed Limits for Deep Learning [67.69149326107103]
熱力学の最近の進歩は、初期重量分布から完全に訓練されたネットワークの最終分布への移動速度の制限を可能にする。
線形および線形化可能なニューラルネットワークに対して,これらの速度制限に対する解析式を提供する。
NTKスペクトルとラベルのスペクトル分解に関するいくつかの妥当なスケーリング仮定を考えると、学習はスケーリングの意味で最適である。
論文 参考訳(メタデータ) (2023-07-27T06:59:46Z) - A Bootstrap Algorithm for Fast Supervised Learning [0.0]
ニューラルネットワーク(NN)のトレーニングは通常、勾配降下(および勾配降下(SGD))、ADADELTA、ADAM、制限メモリアルゴリズムなど、ある種の曲線追従手法に依存する。
これらのアルゴリズムの収束は通常、高いレベルの精度を達成するために大量の観測にアクセスできることに依存しており、特定の種類の関数で、これらのアルゴリズムはキャッチするデータポイントの複数のエポックを取ることができる。
ここでは、収束速度が劇的に向上する可能性を秘めている別の手法を探求する: カーブフォローではなく、隠れた層を「疎結合」することなどに依存する。
論文 参考訳(メタデータ) (2023-05-04T18:28:18Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Deep Architecture Connectivity Matters for Its Convergence: A
Fine-Grained Analysis [94.64007376939735]
我々は、勾配降下訓練におけるディープニューラルネットワーク(DNN)の収束に対する接続パターンの影響を理論的に特徴づける。
接続パターンの単純なフィルタリングによって、評価対象のモデルの数を削減できることが示される。
論文 参考訳(メタデータ) (2022-05-11T17:43:54Z) - A Convergence Analysis of Nesterov's Accelerated Gradient Method in
Training Deep Linear Neural Networks [21.994004684742812]
モメンタム法は高速軌道のトレーニングネットワークで広く用いられている。
ランダム数と$kappaOの収束は、大域的な最小値に収束できることを示す。
我々は解析を深い線形ResNetに拡張し、同様の結果を導出する。
論文 参考訳(メタデータ) (2022-04-18T13:24:12Z) - A Convergence Theory Towards Practical Over-parameterized Deep Neural
Networks [56.084798078072396]
ネットワーク幅と収束時間の両方で既知の理論境界を大幅に改善することにより、理論と実践のギャップを埋める一歩を踏み出します。
本研究では, サンプルサイズが2次幅で, 両者の時間対数で線形なネットワークに対して, 地球最小値への収束が保証されていることを示す。
私たちの分析と収束境界は、いつでも合理的なサイズの同等のRELUネットワークに変換できる固定アクティベーションパターンを備えたサロゲートネットワークの構築によって導出されます。
論文 参考訳(メタデータ) (2021-01-12T00:40:45Z) - Optimal Rates for Averaged Stochastic Gradient Descent under Neural
Tangent Kernel Regime [50.510421854168065]
平均勾配勾配勾配は極小収束率が得られることを示す。
本稿では、ReLUネットワークのNTKで指定されたターゲット関数を最適収束速度で学習できることを示す。
論文 参考訳(メタデータ) (2020-06-22T14:31:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。