論文の概要: NG+ : A Multi-Step Matrix-Product Natural Gradient Method for Deep
Learning
- arxiv url: http://arxiv.org/abs/2106.07454v1
- Date: Mon, 14 Jun 2021 14:31:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-15 16:36:45.306739
- Title: NG+ : A Multi-Step Matrix-Product Natural Gradient Method for Deep
Learning
- Title(参考訳): 深層学習のためのマルチステップ行列生成自然勾配法NG+
- Authors: Minghan Yang, Dong Xu, Qiwen Cui, Zaiwen Wen and Pengxiang Xu
- Abstract要約: NG+と呼ばれる新しい二階法が提案されている。
グローバル収束は、いくつかの穏やかな条件下で確立される。
GN+は最先端の手法と競合する。
- 参考スコア(独自算出の注目度): 15.209529900740877
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, a novel second-order method called NG+ is proposed. By
following the rule ``the shape of the gradient equals the shape of the
parameter", we define a generalized fisher information matrix (GFIM) using the
products of gradients in the matrix form rather than the traditional
vectorization. Then, our generalized natural gradient direction is simply the
inverse of the GFIM multiplies the gradient in the matrix form. Moreover, the
GFIM and its inverse keeps the same for multiple steps so that the
computational cost can be controlled and is comparable with the first-order
methods. A global convergence is established under some mild conditions and a
regret bound is also given for the online learning setting. Numerical results
on image classification with ResNet50, quantum chemistry modeling with Schnet,
neural machine translation with Transformer and recommendation system with DLRM
illustrate that GN+ is competitive with the state-of-the-art methods.
- Abstract(参考訳): 本稿では,NG+と呼ばれる新しい二階法を提案する。
勾配の形状はパラメータの形状と等しい」という規則に従うことによって、従来のベクトル化ではなく、行列形式の勾配の積を用いた一般化漁業情報行列(GFIM)を定義する。
そして、一般化された自然勾配方向は単にGFIMの逆数であり、行列形式の勾配を乗算する。
さらに、GFIMとその逆は、計算コストを制御できるように複数のステップで同じであり、一階法と同等である。
ある程度の温和な条件下でグローバル収束が確立され、オンライン学習環境にも後悔の念が与えられる。
ResNet50による画像分類、Schnetによる量子化学モデリング、Transformerによるニューラルネットワーク翻訳、DLRMによるレコメンデーションシステムは、GN+が最先端の手法と競合していることを示している。
関連論文リスト
- Global optimization of MPS in quantum-inspired numerical analysis [0.0]
この研究は、ハミルトン方程式の最も低い固有状態の探索に焦点を当てている。
5つのアルゴリズムが導入された: 想像時間進化、最も急勾配降下、改良された降下、暗黙的に再起動されたアルノルニ法、密度行列再正規化群 (DMRG) 最適化。
論文 参考訳(メタデータ) (2023-03-16T16:03:51Z) - Component-Wise Natural Gradient Descent -- An Efficient Neural Network
Optimization [0.0]
Natural Gradient Descent(NGD)は、Fisher Information Matrix(FIM)の逆数による勾配降下を前提とした2次ニューラルネットワークトレーニングである。
本稿では Component-Wise Natural Gradient Descent (CW-NGD) という新しいNGD変種アルゴリズムを提案する。
CW-NGDは、最先端の1次法と2次法と比較して、収束するイテレーションを少なくする。
論文 参考訳(メタデータ) (2022-10-11T09:03:57Z) - Graph Polynomial Convolution Models for Node Classification of
Non-Homophilous Graphs [52.52570805621925]
本研究では,高階グラフ畳み込みからの効率的な学習と,ノード分類のための隣接行列から直接学習する。
得られたモデルが新しいグラフと残留スケーリングパラメータをもたらすことを示す。
提案手法は,非親和性パラメータのノード分類における精度の向上を実証する。
論文 参考訳(メタデータ) (2022-09-12T04:46:55Z) - FC2T2: The Fast Continuous Convolutional Taylor Transform with
Applications in Vision and Graphics [8.629912408966145]
現代の機械学習の観点から、Taylorシリーズの拡張を再考する。
連続空間における低次元畳み込み作用素の効率的な近似を可能にする高速多重極法(FMM)の変種である高速連続畳み込みテイラー変換(FC2T2)を導入する。
論文 参考訳(メタデータ) (2021-10-29T22:58:42Z) - Deep Learning Approximation of Diffeomorphisms via Linear-Control
Systems [91.3755431537592]
我々は、制御に線形に依存する$dot x = sum_i=1lF_i(x)u_i$という形の制御系を考える。
対応するフローを用いて、コンパクトな点のアンサンブル上の微分同相写像の作用を近似する。
論文 参考訳(メタデータ) (2021-10-24T08:57:46Z) - Cogradient Descent for Dependable Learning [64.02052988844301]
双線形最適化問題に対処するために,CoGDアルゴリズムに基づく信頼度の高い学習法を提案する。
CoGDは、ある変数がスパーシティ制約を持つ場合の双線形問題を解くために導入された。
また、特徴と重みの関連を分解するためにも使用できるため、畳み込みニューラルネットワーク(CNN)をより良く訓練するための我々の手法をさらに一般化することができる。
論文 参考訳(メタデータ) (2021-06-20T04:28:20Z) - Leveraging Non-uniformity in First-order Non-convex Optimization [93.6817946818977]
目的関数の非一様洗練は、emphNon-uniform Smoothness(NS)とemphNon-uniform Lojasiewicz inequality(NL)につながる
新しい定義は、古典的な$Omega (1/t2)$下界よりも早く大域的最適性に収束する新しい幾何学的一階法を刺激する。
論文 参考訳(メタデータ) (2021-05-13T04:23:07Z) - Feature Whitening via Gradient Transformation for Improved Convergence [3.5579740292581]
機能白化の複雑さの欠点に対処する。
サンプル変換を重み勾配への変換によって置き換える等価な手法をBサンプルの各バッチに適用する。
CIFAR と Imagenet データセットで実証された画像分類のためのResNet ベースのネットワークを用いて提案アルゴリズムを例示する。
論文 参考訳(メタデータ) (2020-10-04T11:30:20Z) - Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。
一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。
本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文 参考訳(メタデータ) (2020-06-16T13:41:54Z) - Gauge Equivariant Mesh CNNs: Anisotropic convolutions on geometric
graphs [81.12344211998635]
メッシュ上の畳み込みを定義する一般的なアプローチは、それらをグラフとして解釈し、グラフ畳み込みネットワーク(GCN)を適用することである。
本稿では、GCNを一般化して異方性ゲージ同変カーネルを適用するGauge Equivariant Mesh CNNを提案する。
本実験は,従来のGCNおよび他の手法と比較して,提案手法の表現性を大幅に向上することを示した。
論文 参考訳(メタデータ) (2020-03-11T17:21:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。