論文の概要: Coordinate descent on the orthogonal group for recurrent neural network
training
- arxiv url: http://arxiv.org/abs/2108.00051v1
- Date: Fri, 30 Jul 2021 19:27:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-03 15:02:59.755120
- Title: Coordinate descent on the orthogonal group for recurrent neural network
training
- Title(参考訳): リカレントニューラルネットワークトレーニングのための直交群上の座標降下
- Authors: Estelle Massart and Vinayak Abrol
- Abstract要約: 提案アルゴリズムは, 繰り返し行列の2つの列を回転させ, 与えられた行列による乗算として効率的に実装できる演算であることを示す。
提案アルゴリズムの有効性を示すために, ベンチマーク繰り返しニューラルネットワークトレーニング問題の実験を行った。
- 参考スコア(独自算出の注目度): 9.886326127330337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose to use stochastic Riemannian coordinate descent on the orthogonal
group for recurrent neural network training. The algorithm rotates successively
two columns of the recurrent matrix, an operation that can be efficiently
implemented as a multiplication by a Givens matrix. In the case when the
coordinate is selected uniformly at random at each iteration, we prove the
convergence of the proposed algorithm under standard assumptions on the loss
function, stepsize and minibatch noise. In addition, we numerically demonstrate
that the Riemannian gradient in recurrent neural network training has an
approximately sparse structure. Leveraging this observation, we propose a
faster variant of the proposed algorithm that relies on the Gauss-Southwell
rule. Experiments on a benchmark recurrent neural network training problem are
presented to demonstrate the effectiveness of the proposed algorithm.
- Abstract(参考訳): 本稿では,直交群における確率的リーマン座標降下を用いたニューラルネットワーク学習を提案する。
アルゴリズムはリカレント行列の2列を順次回転させ、与えられた行列による乗算として効率的に実装できる演算を行う。
各繰り返しにおいて座標が一意にランダムに選択された場合、損失関数の標準仮定に基づく提案アルゴリズムの収束、段階化、最小化の証明を行う。
さらに,リカレントニューラルネットワークトレーニングにおけるリーマン勾配が,ほぼスパース構造を持つことを数値的に証明した。
この観測を利用して,ガウス・サウスウェル則に依存する提案アルゴリズムのより高速な変種を提案する。
提案アルゴリズムの有効性を示すために, ベンチマーク繰り返しニューラルネットワークトレーニング問題の実験を行った。
関連論文リスト
- Flavors of Margin: Implicit Bias of Steepest Descent in Homogeneous Neural Networks [19.185059111021854]
本稿では,勾配降下,符号降下,座標降下を含む急勾配降下アルゴリズムの一般家系の暗黙バイアスについて検討する。
ネットワークが完全なトレーニング精度に達すると,アルゴリズム依存の幾何マージンが増加し始めることを実証する。
論文 参考訳(メタデータ) (2024-10-29T14:28:49Z) - Precise asymptotics of reweighted least-squares algorithms for linear diagonal networks [15.074950361970194]
我々は、IRLS、最近提案されたリンリン-RFMアルゴリズム、交互対角ニューラルネットワークを含むアルゴリズム群を統一的に分析する。
適切に選択された再重み付けポリシーにより、少数のスパース構造が良好な性能が得られることを示す。
また、これを再重み付け方式で活用することで、座標ワイド再重み付けよりもテスト誤差が良好に向上することを示す。
論文 参考訳(メタデータ) (2024-06-04T20:37:17Z) - Stochastic Unrolled Federated Learning [85.6993263983062]
本稿では,UnRolled Federated Learning (SURF)を導入する。
提案手法は,この拡張における2つの課題,すなわち,非学習者へのデータセット全体の供給の必要性と,フェデレート学習の分散的性質に対処する。
論文 参考訳(メタデータ) (2023-05-24T17:26:22Z) - A Recursively Recurrent Neural Network (R2N2) Architecture for Learning
Iterative Algorithms [64.3064050603721]
本研究では,リカレントニューラルネットワーク (R2N2) にランゲ・クッタニューラルネットワークを一般化し,リカレントニューラルネットワークを最適化した反復アルゴリズムの設計を行う。
本稿では, 線形方程式系に対するクリロフ解法, 非線形方程式系に対するニュートン・クリロフ解法, 常微分方程式に対するルンゲ・クッタ解法と類似の繰り返しを計算問題クラスの入力・出力データに対して提案した超構造内における重みパラメータの正規化について述べる。
論文 参考訳(メタデータ) (2022-11-22T16:30:33Z) - An Inexact Augmented Lagrangian Algorithm for Training Leaky ReLU Neural
Network with Group Sparsity [13.27709100571336]
近年,グループ正規化期間を持つリーク型ReLUネットワークが広く利用されている。
定常点を決定論的に計算する手法が存在しないことを示す。
本稿では,新しいモデルを解くための不正確な拡張ラグランジアンアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-11T11:53:15Z) - Scalable computation of prediction intervals for neural networks via
matrix sketching [79.44177623781043]
既存の不確実性推定アルゴリズムでは、モデルアーキテクチャとトレーニング手順を変更する必要がある。
本研究では、与えられたトレーニングされたニューラルネットワークに適用し、近似予測間隔を生成できる新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-06T13:18:31Z) - Revisiting Recursive Least Squares for Training Deep Neural Networks [10.44340837533087]
再帰最小二乗法(RLS)アルゴリズムは、その高速収束のため、かつては小規模ニューラルネットワークのトレーニングに広く用いられていた。
従来のRSSアルゴリズムは、計算複雑性が高く、事前条件が多すぎるため、ディープニューラルネットワーク(DNN)のトレーニングには適さない。
本稿では,フィードフォワードニューラルネットワーク,畳み込みニューラルネットワーク,リカレントニューラルネットワークの3つの新しいRSS最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-09-07T17:43:51Z) - LocalDrop: A Hybrid Regularization for Deep Neural Networks [98.30782118441158]
本稿では,ローカルラデマチャー複雑性を用いたニューラルネットワークの正規化のための新しい手法であるLocalDropを提案する。
フルコネクテッドネットワーク(FCN)と畳み込みニューラルネットワーク(CNN)の両方のための新しい正規化機能は、ローカルラデマチャー複雑さの上限提案に基づいて開発されました。
論文 参考訳(メタデータ) (2021-03-01T03:10:11Z) - Attentive Gaussian processes for probabilistic time-series generation [4.94950858749529]
本稿では,ガウス過程の回帰と組み合わせて実数値列を生成する,計算効率のよいアテンションベースネットワークを提案する。
我々は,GPがフルバッチを用いて訓練されている間,ネットワークのミニバッチトレーニングを可能にするブロックワイズトレーニングアルゴリズムを開発した。
アルゴリズムは収束することが証明され、より良くなくても、見いだされた解の品質に匹敵することを示す。
論文 参考訳(メタデータ) (2021-02-10T01:19:15Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - Parallelization Techniques for Verifying Neural Networks [52.917845265248744]
検証問題に基づくアルゴリズムを反復的に導入し、2つの分割戦略を探索する。
また、ニューラルネットワークの検証問題を単純化するために、ニューロンアクティベーションフェーズを利用する、高度に並列化可能な前処理アルゴリズムも導入する。
論文 参考訳(メタデータ) (2020-04-17T20:21:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。