論文の概要: Sketchy Empirical Natural Gradient Methods for Deep Learning
- arxiv url: http://arxiv.org/abs/2006.05924v3
- Date: Thu, 25 Mar 2021 07:39:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 06:08:34.026081
- Title: Sketchy Empirical Natural Gradient Methods for Deep Learning
- Title(参考訳): 深層学習のためのSketchy Empirical Natural Gradient Methods
- Authors: Minghan Yang, Dong Xu, Zaiwen Wen, Mengyun Chen and Pengxiang Xu
- Abstract要約: 本研究では,大規模ディープラーニング問題に対する効率的なスケッチ型経験勾配法 (SENG) を提案する。
SENGの分散バージョンは、非常に大規模なアプリケーション向けにも開発されている。
ImageNet-1kのタスクResNet50では、SENGは41時間以内に75.9%のTop-1テストの精度を達成した。
- 参考スコア(独自算出の注目度): 20.517823521066234
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we develop an efficient sketchy empirical natural gradient
method (SENG) for large-scale deep learning problems. The empirical Fisher
information matrix is usually low-rank since the sampling is only practical on
a small amount of data at each iteration. Although the corresponding natural
gradient direction lies in a small subspace, both the computational cost and
memory requirement are still not tractable due to the high dimensionality. We
design randomized techniques for different neural network structures to resolve
these challenges. For layers with a reasonable dimension, sketching can be
performed on a regularized least squares subproblem. Otherwise, since the
gradient is a vectorization of the product between two matrices, we apply
sketching on the low-rank approximations of these matrices to compute the most
expensive parts. A distributed version of SENG is also developed for extremely
large-scale applications. Global convergence to stationary points is
established under some mild assumptions and a fast linear convergence is
analyzed under the neural tangent kernel (NTK) case. Extensive experiments on
convolutional neural networks show the competitiveness of SENG compared with
the state-of-the-art methods. On the task ResNet50 with ImageNet-1k, SENG
achieves 75.9\% Top-1 testing accuracy within 41 epochs. Experiments on the
distributed large-batch training show that the scaling efficiency is quite
reasonable.
- Abstract(参考訳): 本稿では,大規模深層学習問題に対する効率的なスケッチ型経験的自然勾配法(SENG)を提案する。
経験的なフィッシャー情報マトリクスは、サンプリングはイテレーション毎に少量のデータしか実行できないため、通常低ランクである。
対応する自然勾配方向は小さな部分空間にあるが、計算コストとメモリ要件はどちらも高次元性のため、まだ引くことができない。
これらの課題を解決するために、異なるニューラルネットワーク構造のためのランダム化手法を設計する。
適度な次元を持つ層に対しては、正則化された最小二乗部分問題でスケッチを行うことができる。
さもなくば、勾配は2つの行列の間の積のベクトル化であるため、これらの行列の低ランク近似にスケッチを適用して最も高価な部分を計算する。
SENGの分散バージョンは、非常に大規模なアプリケーション向けにも開発されている。
静止点への大域収束はいくつかの穏やかな仮定の下で確立され、高速線形収束はneural tangent kernel (ntk) の下で解析される。
畳み込みニューラルネットワークに関する大規模な実験は、最先端の手法と比較してSENGの競争力を示している。
ImageNet-1kのタスクResNet50では、41時間以内に75.9%のTop-1テスト精度を達成した。
分散大規模バッチトレーニング実験では,スケーリング効率が極めて妥当であることが示されている。
関連論文リスト
- Convergence of Implicit Gradient Descent for Training Two-Layer Physics-Informed Neural Networks [3.680127959836384]
暗黙の勾配降下(IGD)は、ある種のマルチスケール問題を扱う場合、共通勾配降下(GD)よりも優れる。
IGDは線形収束速度で大域的に最適解を収束することを示す。
論文 参考訳(メタデータ) (2024-07-03T06:10:41Z) - NeuralGF: Unsupervised Point Normal Estimation by Learning Neural
Gradient Function [55.86697795177619]
3次元点雲の正規推定は3次元幾何処理の基本的な課題である。
我々は,ニューラルネットワークが入力点雲に適合することを奨励する,ニューラルグラデーション関数の学習のための新しいパラダイムを導入する。
広範に使用されているベンチマークの優れた結果から,本手法は非指向性および指向性正常推定タスクにおいて,より正確な正規性を学習できることが示されている。
論文 参考訳(メタデータ) (2023-11-01T09:25:29Z) - Neural Gradient Learning and Optimization for Oriented Point Normal
Estimation [53.611206368815125]
本研究では,3次元点雲から勾配ベクトルを一貫した向きで学習し,正規推定を行うためのディープラーニング手法を提案する。
局所平面幾何に基づいて角距離場を学習し、粗勾配ベクトルを洗練する。
本手法は,局所特徴記述の精度と能力の一般化を図りながら,グローバル勾配近似を効率的に行う。
論文 参考訳(メタデータ) (2023-09-17T08:35:11Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Error-Correcting Neural Networks for Two-Dimensional Curvature
Computation in the Level-Set Method [0.0]
本稿では,2次元曲率をレベルセット法で近似するための誤差ニューラルモデルに基づく手法を提案する。
我々の主な貢献は、需要に応じて機械学習操作を可能にする数値スキームに依存する、再設計されたハイブリッド・ソルバである。
論文 参考訳(メタデータ) (2022-01-22T05:14:40Z) - DiGS : Divergence guided shape implicit neural representation for
unoriented point clouds [36.60407995156801]
形状暗黙的神経表現(INR)は近年,形状解析や再構成作業に有効であることが示されている。
本稿では,通常のベクトルを入力として必要としない分岐ガイド型形状表現学習手法を提案する。
論文 参考訳(メタデータ) (2021-06-21T02:10:03Z) - Random Features for the Neural Tangent Kernel [57.132634274795066]
完全接続型ReLUネットワークのニューラルタンジェントカーネル(NTK)の効率的な特徴マップ構築を提案する。
得られた特徴の次元は、理論と実践の両方で比較誤差境界を達成するために、他のベースライン特徴マップ構造よりもはるかに小さいことを示しています。
論文 参考訳(メタデータ) (2021-04-03T09:08:12Z) - Learning Rates as a Function of Batch Size: A Random Matrix Theory
Approach to Neural Network Training [2.9649783577150837]
スパイクされたフィールド依存ランダム行列理論を用いて, ニューラルネットの損失景観に及ぼすミニバッチの影響について検討した。
我々は、スムーズで非ニュートンディープニューラルネットワークのための最大降下および適応訓練規則の解析式を導出する。
VGG/ResNetおよびImageNetデータセットのクレームを検証する。
論文 参考訳(メタデータ) (2020-06-16T11:55:45Z) - Learning Low-rank Deep Neural Networks via Singular Vector Orthogonality
Regularization and Singular Value Sparsification [53.50708351813565]
各ステップにSVDを適用することなく、トレーニング中に低ランクDNNを明示的に達成する最初の方法であるSVDトレーニングを提案する。
SVDトレーニングがDNN層のランクを著しく低減し,同じ精度で計算負荷の低減を実現することを実証的に示す。
論文 参考訳(メタデータ) (2020-04-20T02:40:43Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。