論文の概要: Orthogonal Gated Recurrent Unit with Neumann-Cayley Transformation
- arxiv url: http://arxiv.org/abs/2208.06496v1
- Date: Fri, 12 Aug 2022 20:50:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-16 14:16:55.891837
- Title: Orthogonal Gated Recurrent Unit with Neumann-Cayley Transformation
- Title(参考訳): ノイマン・ケイリー変換を伴う直交ゲートリカレントユニット
- Authors: Edison Mucllari, Vasily Zadorozhnyy, Cole Pospisil, Duc Nguyen, Qiang
Ye
- Abstract要約: GRU(Gent Recurrent Unit)とLSTM(Long Short Term Memory)アーキテクチャは、様々なゲートとメモリセルを用いて、消滅する勾配問題に対処する。
本稿では,爆発的勾配問題の発生防止と長期記憶向上のための直交行列の利用を提案する。
本稿では, NC-GRU が GRU と他の RNN を著しく上回っていることを示す。
- 参考スコア(独自算出の注目度): 5.046879771543164
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, using orthogonal matrices has been shown to be a promising
approach in improving Recurrent Neural Networks (RNNs) with training,
stability, and convergence, particularly, to control gradients. While Gated
Recurrent Unit (GRU) and Long Short Term Memory (LSTM) architectures address
the vanishing gradient problem by using a variety of gates and memory cells,
they are still prone to the exploding gradient problem. In this work, we
analyze the gradients in GRU and propose the usage of orthogonal matrices to
prevent exploding gradient problems and enhance long-term memory. We study
where to use orthogonal matrices and we propose a Neumann series-based Scaled
Cayley transformation for training orthogonal matrices in GRU, which we call
Neumann-Cayley Orthogonal GRU, or simply NC-GRU. We present detailed
experiments of our model on several synthetic and real-world tasks, which show
that NC-GRU significantly outperforms GRU as well as several other RNNs.
- Abstract(参考訳): 近年、直交行列の使用は、特に勾配を制御するために、トレーニング、安定性、収束を伴うリカレントニューラルネットワーク(rnn)を改善する有望なアプローチであることが示されている。
GRU(Gent Recurrent Unit)とLSTM(Long Short Term Memory)アーキテクチャは、様々なゲートとメモリセルを用いて、消滅する勾配問題に対処するが、それでも爆発する勾配問題に対処する傾向にある。
本研究では,GRUの勾配を解析し,爆発的勾配問題の発生防止と長期記憶の向上を目的とした直交行列の利用を提案する。
直交行列の使い方について検討し、直交行列をGRUでトレーニングするためのノイマン級数に基づくスケールドケイリー変換を提案し、これをノイマン・ケイリー直交GRU、あるいは単にNC-GRUと呼ぶ。
本稿では, nc-gru が gru と他の rnn を有意に上回っていることを示す人工的および実世界の課題について, 詳細な実験を行った。
関連論文リスト
- Exact Gauss-Newton Optimization for Training Deep Neural Networks [0.0]
一般化されたガウスニュートン(GN)ヘッセン近似と低ランク線形代数を組み合わせた2階最適化アルゴリズムEGNを提案する。
線形探索,適応正則化,運動量などの改良をEGNにシームレスに追加して,アルゴリズムをさらに高速化する方法について述べる。
論文 参考訳(メタデータ) (2024-05-23T10:21:05Z) - A Unified Algebraic Perspective on Lipschitz Neural Networks [88.14073994459586]
本稿では,様々なタイプの1-Lipschitzニューラルネットワークを統一する新しい視点を提案する。
そこで本研究では,SDP(Common semidefinite Programming)条件の解析解を求めることによって,既存の多くの手法を導出し,一般化することができることを示す。
SDPベースのLipschitz Layers (SLL) と呼ばれる我々のアプローチは、非自明で効率的な凸ポテンシャル層の一般化を設計できる。
論文 参考訳(メタデータ) (2023-03-06T14:31:09Z) - OrthoReg: Improving Graph-regularized MLPs via Orthogonality
Regularization [66.30021126251725]
グラフニューラルネットワーク(GNN)は現在、グラフ構造データのモデリングにおいて支配的である。
グラフ正規化ネットワーク(GR-MLP)はグラフ構造情報をモデル重みに暗黙的に注入するが、その性能はほとんどのタスクにおいてGNNとほとんど一致しない。
GR-MLPは,最大数個の固有値が埋め込み空間を支配する現象である次元崩壊に苦しむことを示す。
次元崩壊問題を緩和する新しいGR-MLPモデルであるOrthoRegを提案する。
論文 参考訳(メタデータ) (2023-01-31T21:20:48Z) - Improved Convergence Rate of Stochastic Gradient Langevin Dynamics with
Variance Reduction and its Application to Optimization [50.83356836818667]
勾配ランゲヴィン・ダイナミクスは非エプス最適化問題を解くための最も基本的なアルゴリズムの1つである。
本稿では、このタイプの2つの変種、すなわち、分散還元ランジュバンダイナミクスと再帰勾配ランジュバンダイナミクスを示す。
論文 参考訳(メタデータ) (2022-03-30T11:39:00Z) - Orthogonal Graph Neural Networks [53.466187667936026]
グラフニューラルネットワーク(GNN)は,ノード表現の学習において優れていたため,大きな注目を集めている。
より畳み込み層を積み重ねることで、GNNのパフォーマンスが大幅に低下する。
本稿では,モデルトレーニングの安定化とモデル一般化性能の向上のために,既存のGNNバックボーンを拡張可能なOrtho-GConvを提案する。
論文 参考訳(メタデータ) (2021-09-23T12:39:01Z) - Graph Convolutional Memory for Deep Reinforcement Learning [8.229775890542967]
深部強化学習を用いてPOMDPを解くためのグラフ畳み込みメモリ(GCM)を提案する。
リカレントニューラルネットワーク(RNN)やトランスフォーマーとは異なり、GCMは知識グラフを通じて、ドメイン固有の事前情報をメモリリコールプロセスに埋め込む。
グラフ畳み込みを用いたGCMは、畳み込みニューラルネットワーク(CNN)における画像特徴に類似した階層グラフ特徴を抽出する
論文 参考訳(メタデータ) (2021-06-27T00:22:51Z) - Cogradient Descent for Dependable Learning [64.02052988844301]
双線形最適化問題に対処するために,CoGDアルゴリズムに基づく信頼度の高い学習法を提案する。
CoGDは、ある変数がスパーシティ制約を持つ場合の双線形問題を解くために導入された。
また、特徴と重みの関連を分解するためにも使用できるため、畳み込みニューラルネットワーク(CNN)をより良く訓練するための我々の手法をさらに一般化することができる。
論文 参考訳(メタデータ) (2021-06-20T04:28:20Z) - Hamiltonian Deep Neural Networks Guaranteeing Non-vanishing Gradients by
Design [2.752441514346229]
バックプロパゲーションによる重量最適化における勾配の消失と爆発は、訓練が困難である。
連続時間ハミルトンシステムの離散化から導かれるハミルトンDNN(H-DNN)の一般クラスを提案する。
我々の主な成果は、広範囲のH-DNNが任意のネットワーク深さを設計することで、不要な勾配を保証することである。
MNISTデータセットを用いた画像分類を含む,ベンチマーク分類問題において,H-DNNの性能を示す。
論文 参考訳(メタデータ) (2021-05-27T14:52:22Z) - Why Approximate Matrix Square Root Outperforms Accurate SVD in Global
Covariance Pooling? [59.820507600960745]
本稿では,前方通過のSVDと後方伝播のPad'e近似を用いて勾配を計算する新しいGCPメタ層を提案する。
提案するメタレイヤは,さまざまなCNNモデルに統合され,大規模および微細なデータセット上で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-05-06T08:03:45Z) - SiTGRU: Single-Tunnelled Gated Recurrent Unit for Abnormality Detection [29.500392184282518]
異常検出のための単一トンネルGRU(Single Tunnelled GRU)と呼ばれるGRU(Gated Recurrent Unit)の新規バージョンを提案する。
提案手法は,標準GRUとLong Short Term Memory(LSTM)ネットワークを,検出および一般化タスクのほとんどの指標で上回っている。
論文 参考訳(メタデータ) (2020-03-30T14:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。