論文の概要: Research of Damped Newton Stochastic Gradient Descent Method for Neural
Network Training
- arxiv url: http://arxiv.org/abs/2103.16764v1
- Date: Wed, 31 Mar 2021 02:07:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-01 14:19:18.184326
- Title: Research of Damped Newton Stochastic Gradient Descent Method for Neural
Network Training
- Title(参考訳): ニューラルネットワークトレーニングのためのダンプニュートン確率勾配降下法の研究
- Authors: Jingcheng Zhou, Wei Wei, Zhiming Zheng
- Abstract要約: 勾配降下(SGD)のような一階法は、最近ディープニューラルネットワーク(DNN)を訓練するための一般的な最適化方法です。
本稿では、平均二乗誤差(MSE)の回帰問題とクロスエントロピー損失(CEL)の分類問題に対するDNNの訓練方法として、DN-SGD(Damped Newton Descent)とGGD-DN(Gradient Descent Damped Newton)を提案する。
提案手法はパラメータのごく一部を正確に計算し,計算コストを大幅に削減し,sgdよりも高速かつ高精度な学習プロセスを実現する。
- 参考スコア(独自算出の注目度): 6.231508838034926
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: First-order methods like stochastic gradient descent(SGD) are recently the
popular optimization method to train deep neural networks (DNNs), but
second-order methods are scarcely used because of the overpriced computing cost
in getting the high-order information. In this paper, we propose the Damped
Newton Stochastic Gradient Descent(DN-SGD) method and Stochastic Gradient
Descent Damped Newton(SGD-DN) method to train DNNs for regression problems with
Mean Square Error(MSE) and classification problems with Cross-Entropy
Loss(CEL), which is inspired by a proved fact that the hessian matrix of last
layer of DNNs is always semi-definite. Different from other second-order
methods to estimate the hessian matrix of all parameters, our methods just
accurately compute a small part of the parameters, which greatly reduces the
computational cost and makes convergence of the learning process much faster
and more accurate than SGD. Several numerical experiments on real datesets are
performed to verify the effectiveness of our methods for regression and
classification problems.
- Abstract(参考訳): 確率勾配降下(SGD)のような一階法は近年、ディープニューラルネットワーク(DNN)を訓練するための一般的な最適化手法であるが、高階情報を得るのに高コストの計算コストがかかるため、二階法はほとんど使われていない。
本稿では,ダンプニュートン確率勾配勾配降下法(dn-sgd法)と確率勾配勾配降下法(sgd-dn法)を提案し,平均二乗誤差(mse)による回帰問題とクロスエントロピー損失(cel)による分類問題に対するdnnの訓練を行う。
すべてのパラメータのヘッセン行列を推定する他の二階法とは異なり、この手法はパラメータのごく一部を正確に計算し、計算コストを大幅に削減し、学習プロセスの収束をsgdよりも高速かつ高精度にする。
本手法の有効性を検証するため,実日付セットに関する数値実験を行った。
関連論文リスト
- SOFIM: Stochastic Optimization Using Regularized Fisher Information Matrix [10.532651329230497]
本稿では、正規化フィッシャー情報行列(FIM)に基づく新しい最適化手法を提案する。
大規模な機械学習モデルでニュートンの勾配更新を見つけるために、FIMを効率的に利用してヘッセン反転行列を近似することができる。
論文 参考訳(メタデータ) (2024-03-05T10:09:31Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - On the efficiency of Stochastic Quasi-Newton Methods for Deep Learning [0.0]
深部記憶ネットワークのための準ニュートン学習アルゴリズムの動作について検討する。
準ニュートンは効率が良く、よく知られたAdamの1次実行よりも性能が優れていることを示す。
論文 参考訳(メタデータ) (2022-05-18T20:53:58Z) - Training Feedback Spiking Neural Networks by Implicit Differentiation on
the Equilibrium State [66.2457134675891]
スパイキングニューラルネットワーク(英: Spiking Neural Network、SNN)は、ニューロモルフィックハードウェア上でエネルギー効率の高い実装を可能にする脳にインスパイアされたモデルである。
既存のほとんどの手法は、人工ニューラルネットワークのバックプロパゲーションフレームワークとフィードフォワードアーキテクチャを模倣している。
本稿では,フォワード計算の正逆性に依存しない新しいトレーニング手法を提案する。
論文 参考訳(メタデータ) (2021-09-29T07:46:54Z) - A Differentiable Point Process with Its Application to Spiking Neural
Networks [13.160616423673373]
Jimenez Rezende & Gerstner (2014) は、隠れたニューロンでSNNを訓練するための変分推論アルゴリズムを提案した。
本稿では,経路ワイド勾配推定器に基づくSNNの代替勾配推定器を提案する。
論文 参考訳(メタデータ) (2021-06-02T02:40:17Z) - Rank-R FNN: A Tensor-Based Learning Model for High-Order Data
Classification [69.26747803963907]
Rank-R Feedforward Neural Network (FNN)は、そのパラメータにCanonical/Polyadic分解を課すテンソルベースの非線形学習モデルである。
まず、入力をマルチリニアアレイとして扱い、ベクトル化の必要性を回避し、すべてのデータ次元に沿って構造情報を十分に活用することができる。
Rank-R FNNの普遍的な近似と学習性の特性を確立し、実世界のハイパースペクトルデータセットのパフォーマンスを検証する。
論文 参考訳(メタデータ) (2021-04-11T16:37:32Z) - TaylorGAN: Neighbor-Augmented Policy Update for Sample-Efficient Natural
Language Generation [79.4205462326301]
TaylorGANは関数ベースの自然言語生成のための新しいアプローチである。
オフポリシー更新による勾配推定と1階のTaylor拡張が強化される。
これにより、より小さなバッチサイズで、スクラッチからNLGモデルをトレーニングすることができます。
論文 参考訳(メタデータ) (2020-11-27T02:26:15Z) - A Novel Neural Network Training Framework with Data Assimilation [2.948167339160823]
勾配計算を避けるため,データ同化に基づく勾配なし学習フレームワークを提案する。
その結果,提案手法は勾配法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2020-10-06T11:12:23Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - Learning Low-rank Deep Neural Networks via Singular Vector Orthogonality
Regularization and Singular Value Sparsification [53.50708351813565]
各ステップにSVDを適用することなく、トレーニング中に低ランクDNNを明示的に達成する最初の方法であるSVDトレーニングを提案する。
SVDトレーニングがDNN層のランクを著しく低減し,同じ精度で計算負荷の低減を実現することを実証的に示す。
論文 参考訳(メタデータ) (2020-04-20T02:40:43Z) - Semi-Implicit Back Propagation [1.5533842336139065]
ニューラルネットワークトレーニングのための半単純バック伝搬法を提案する。
ニューロンの差は後方方向に伝播し、パラメータは近位写像で更新される。
MNISTとCIFAR-10の両方の実験により、提案アルゴリズムは損失減少とトレーニング/検証の精度の両方において、より良い性能をもたらすことが示された。
論文 参考訳(メタデータ) (2020-02-10T03:26:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。