論文の概要: Revisiting Recursive Least Squares for Training Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2109.03220v1
- Date: Tue, 7 Sep 2021 17:43:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-08 14:31:20.476567
- Title: Revisiting Recursive Least Squares for Training Deep Neural Networks
- Title(参考訳): 深層ニューラルネットワーク学習のための再帰的最小方形の再検討
- Authors: Chunyuan Zhang, Qi Song, Hui Zhou, Yigui Ou, Hongyao Deng, Laurence
Tianruo Yang
- Abstract要約: 再帰最小二乗法(RLS)アルゴリズムは、その高速収束のため、かつては小規模ニューラルネットワークのトレーニングに広く用いられていた。
従来のRSSアルゴリズムは、計算複雑性が高く、事前条件が多すぎるため、ディープニューラルネットワーク(DNN)のトレーニングには適さない。
本稿では,フィードフォワードニューラルネットワーク,畳み込みニューラルネットワーク,リカレントニューラルネットワークの3つの新しいRSS最適化アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 10.44340837533087
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recursive least squares (RLS) algorithms were once widely used for training
small-scale neural networks, due to their fast convergence. However, previous
RLS algorithms are unsuitable for training deep neural networks (DNNs), since
they have high computational complexity and too many preconditions. In this
paper, to overcome these drawbacks, we propose three novel RLS optimization
algorithms for training feedforward neural networks, convolutional neural
networks and recurrent neural networks (including long short-term memory
networks), by using the error backpropagation and our average-approximation RLS
method, together with the equivalent gradients of the linear least squares loss
function with respect to the linear outputs of hidden layers. Compared with
previous RLS optimization algorithms, our algorithms are simple and elegant.
They can be viewed as an improved stochastic gradient descent (SGD) algorithm,
which uses the inverse autocorrelation matrix of each layer as the adaptive
learning rate. Their time and space complexities are only several times those
of SGD. They only require the loss function to be the mean squared error and
the activation function of the output layer to be invertible. In fact, our
algorithms can be also used in combination with other first-order optimization
algorithms without requiring these two preconditions. In addition, we present
two improved methods for our algorithms. Finally, we demonstrate their
effectiveness compared to the Adam algorithm on MNIST, CIFAR-10 and IMDB
datasets, and investigate the influences of their hyperparameters
experimentally.
- Abstract(参考訳): 再帰最小二乗法(RLS)アルゴリズムは、その高速収束のため、かつては小規模ニューラルネットワークのトレーニングに広く用いられていた。
しかし、従来のRSSアルゴリズムは計算複雑性が高く、事前条件が多すぎるため、ディープニューラルネットワーク(DNN)のトレーニングには適さない。
本稿では,これらの欠点を克服するために,線形最小二乗損失関数の線形出力に対する等価勾配とともに,誤差バックプロパゲーションと平均近似RSS法を用いて,フィードフォワードニューラルネットワーク,畳み込みニューラルネットワーク,リカレントニューラルネットワーク(長い短期記憶ネットワークを含む)をトレーニングするための3つの新しいRSS最適化アルゴリズムを提案する。
従来のRSS最適化アルゴリズムと比較すると,アルゴリズムは単純でエレガントである。
これらは、各層の逆自己相関行列を適応学習率として利用する改良された確率勾配降下(SGD)アルゴリズムと見なすことができる。
彼らの時間と空間の複雑さは、SGDのわずか数倍である。
損失関数は平均二乗誤差であり、出力層の活性化関数は可逆である必要がある。
実際、我々のアルゴリズムは、これら2つの前提条件を必要とせずに、他の一階最適化アルゴリズムと組み合わせて使うことができる。
さらに,アルゴリズムの2つの改良手法を提案する。
最後に,MNIST, CIFAR-10, IMDBデータセットにおけるAdamアルゴリズムとの比較を行い, ハイパーパラメータの影響を実験的に検討した。
関連論文リスト
- Layer-wise Adaptive Step-Sizes for Stochastic First-Order Methods for
Deep Learning [8.173034693197351]
深層学習における一階最適化のための新しい階層ごとの適応的なステップサイズ手順を提案する。
提案手法は,ディープニューラルネットワーク(DNN)におけるヘシアン対角ブロックに含まれる層次曲率情報を用いて,各層に対する適応的なステップサイズ(LR)を算出する。
数値実験により、SGDの運動量とAdamWと、提案した層ごとのステップサイズを組み合わせることで、効率的なLRスケジュールを選択できることが示されている。
論文 参考訳(メタデータ) (2023-05-23T04:12:55Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。
我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。
RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文 参考訳(メタデータ) (2022-10-21T15:56:13Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Algorithms for Efficiently Learning Low-Rank Neural Networks [12.916132936159713]
低ランクニューラルネットワークの学習アルゴリズムについて検討する。
単層ReLUネットワークに最適な低ランク近似を学習するアルゴリズムを提案する。
低ランク$textitdeep$ネットワークをトレーニングするための新しい低ランクフレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-02T01:08:29Z) - Recursive Least Squares Advantage Actor-Critic Algorithms [20.792917267835247]
2つの新しいRSSベースのアドバンテージアクター批評家アルゴリズム(A2C)を提案する。
RLSSA2C と RLSNA2C は RLS 法を用いて批評家ネットワークとアクターネットワークの隠れ層を訓練する。
実験結果から,両アルゴリズムは,ほとんどのゲームやタスクにおいて,バニラA2Cよりもサンプリング効率がよいことがわかった。
論文 参考訳(メタデータ) (2022-01-15T20:00:26Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - Improving the Backpropagation Algorithm with Consequentialism Weight
Updates over Mini-Batches [0.40611352512781856]
適応フィルタのスタックとして多層ニューラルネットワークを考えることが可能であることを示す。
我々は,BPで発生した行動の悪影響を予測し,その発生前にも予測し,よりよいアルゴリズムを導入する。
我々の実験は、ディープニューラルネットワークのトレーニングにおけるアルゴリズムの有用性を示す。
論文 参考訳(メタデータ) (2020-03-11T08:45:36Z) - MSE-Optimal Neural Network Initialization via Layer Fusion [68.72356718879428]
ディープニューラルネットワークは、さまざまな分類と推論タスクに対して最先端のパフォーマンスを達成する。
グラデーションと非進化性の組み合わせは、学習を新しい問題の影響を受けやすいものにする。
確率変数を用いて学習した深層ネットワークの近傍層を融合する手法を提案する。
論文 参考訳(メタデータ) (2020-01-28T18:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。