論文の概要: NG+ : A Multi-Step Matrix-Product Natural Gradient Method for Deep
Learning
- arxiv url: http://arxiv.org/abs/2106.07454v1
- Date: Mon, 14 Jun 2021 14:31:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-15 16:36:45.306739
- Title: NG+ : A Multi-Step Matrix-Product Natural Gradient Method for Deep
Learning
- Title(参考訳): 深層学習のためのマルチステップ行列生成自然勾配法NG+
- Authors: Minghan Yang, Dong Xu, Qiwen Cui, Zaiwen Wen and Pengxiang Xu
- Abstract要約: NG+と呼ばれる新しい二階法が提案されている。
グローバル収束は、いくつかの穏やかな条件下で確立される。
GN+は最先端の手法と競合する。
- 参考スコア(独自算出の注目度): 15.209529900740877
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, a novel second-order method called NG+ is proposed. By
following the rule ``the shape of the gradient equals the shape of the
parameter", we define a generalized fisher information matrix (GFIM) using the
products of gradients in the matrix form rather than the traditional
vectorization. Then, our generalized natural gradient direction is simply the
inverse of the GFIM multiplies the gradient in the matrix form. Moreover, the
GFIM and its inverse keeps the same for multiple steps so that the
computational cost can be controlled and is comparable with the first-order
methods. A global convergence is established under some mild conditions and a
regret bound is also given for the online learning setting. Numerical results
on image classification with ResNet50, quantum chemistry modeling with Schnet,
neural machine translation with Transformer and recommendation system with DLRM
illustrate that GN+ is competitive with the state-of-the-art methods.
- Abstract(参考訳): 本稿では,NG+と呼ばれる新しい二階法を提案する。
勾配の形状はパラメータの形状と等しい」という規則に従うことによって、従来のベクトル化ではなく、行列形式の勾配の積を用いた一般化漁業情報行列(GFIM)を定義する。
そして、一般化された自然勾配方向は単にGFIMの逆数であり、行列形式の勾配を乗算する。
さらに、GFIMとその逆は、計算コストを制御できるように複数のステップで同じであり、一階法と同等である。
ある程度の温和な条件下でグローバル収束が確立され、オンライン学習環境にも後悔の念が与えられる。
ResNet50による画像分類、Schnetによる量子化学モデリング、Transformerによるニューラルネットワーク翻訳、DLRMによるレコメンデーションシステムは、GN+が最先端の手法と競合していることを示している。
関連論文リスト
- Convergence Analysis of Natural Gradient Descent for Over-parameterized Physics-Informed Neural Networks [3.680127959836384]
勾配勾配勾配(GD)や二次勾配勾配(SGD)のような一階法はニューラルネットワークのトレーニングに有効であることが証明されている。
しかし, 2層ニューラルネットワークの学習におけるGDの学習速度は, サンプルサイズとグラム行列に依存しない。
本稿では, 回帰問題である$L2$に対して, 学習率を$mathcalO(1)$から$mathcalO(1)$に改善できることを示す。
論文 参考訳(メタデータ) (2024-08-01T14:06:34Z) - Convergence of Implicit Gradient Descent for Training Two-Layer Physics-Informed Neural Networks [3.680127959836384]
暗黙の勾配降下(IGD)は、ある種のマルチスケール問題を扱う場合、共通勾配降下(GD)よりも優れる。
IGDは線形収束速度で大域的に最適解を収束することを示す。
論文 参考訳(メタデータ) (2024-07-03T06:10:41Z) - Stochastic Gradient Descent for Gaussian Processes Done Right [86.83678041846971]
emphdone right -- 最適化とカーネルコミュニティからの具体的な洞察を使用するという意味で -- が、勾配降下は非常に効果的であることを示している。
本稿では,直感的に設計を記述し,設計選択について説明する。
本手法は,分子結合親和性予測のための最先端グラフニューラルネットワークと同程度にガウス過程の回帰を配置する。
論文 参考訳(メタデータ) (2023-10-31T16:15:13Z) - Global optimization of MPS in quantum-inspired numerical analysis [0.0]
この研究は、ハミルトン方程式の最も低い固有状態の探索に焦点を当てている。
5つのアルゴリズムが導入された: 想像時間進化、最も急勾配降下、改良された降下、暗黙的に再起動されたアルノルニ法、密度行列再正規化群 (DMRG) 最適化。
論文 参考訳(メタデータ) (2023-03-16T16:03:51Z) - Component-Wise Natural Gradient Descent -- An Efficient Neural Network
Optimization [0.0]
Natural Gradient Descent(NGD)は、Fisher Information Matrix(FIM)の逆数による勾配降下を前提とした2次ニューラルネットワークトレーニングである。
本稿では Component-Wise Natural Gradient Descent (CW-NGD) という新しいNGD変種アルゴリズムを提案する。
CW-NGDは、最先端の1次法と2次法と比較して、収束するイテレーションを少なくする。
論文 参考訳(メタデータ) (2022-10-11T09:03:57Z) - Graph Polynomial Convolution Models for Node Classification of
Non-Homophilous Graphs [52.52570805621925]
本研究では,高階グラフ畳み込みからの効率的な学習と,ノード分類のための隣接行列から直接学習する。
得られたモデルが新しいグラフと残留スケーリングパラメータをもたらすことを示す。
提案手法は,非親和性パラメータのノード分類における精度の向上を実証する。
論文 参考訳(メタデータ) (2022-09-12T04:46:55Z) - Deep Learning Approximation of Diffeomorphisms via Linear-Control
Systems [91.3755431537592]
我々は、制御に線形に依存する$dot x = sum_i=1lF_i(x)u_i$という形の制御系を考える。
対応するフローを用いて、コンパクトな点のアンサンブル上の微分同相写像の作用を近似する。
論文 参考訳(メタデータ) (2021-10-24T08:57:46Z) - Cogradient Descent for Dependable Learning [64.02052988844301]
双線形最適化問題に対処するために,CoGDアルゴリズムに基づく信頼度の高い学習法を提案する。
CoGDは、ある変数がスパーシティ制約を持つ場合の双線形問題を解くために導入された。
また、特徴と重みの関連を分解するためにも使用できるため、畳み込みニューラルネットワーク(CNN)をより良く訓練するための我々の手法をさらに一般化することができる。
論文 参考訳(メタデータ) (2021-06-20T04:28:20Z) - Leveraging Non-uniformity in First-order Non-convex Optimization [93.6817946818977]
目的関数の非一様洗練は、emphNon-uniform Smoothness(NS)とemphNon-uniform Lojasiewicz inequality(NL)につながる
新しい定義は、古典的な$Omega (1/t2)$下界よりも早く大域的最適性に収束する新しい幾何学的一階法を刺激する。
論文 参考訳(メタデータ) (2021-05-13T04:23:07Z) - Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。
一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。
本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文 参考訳(メタデータ) (2020-06-16T13:41:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。