論文の概要: Gating creates slow modes and controls phase-space complexity in GRUs
and LSTMs
- arxiv url: http://arxiv.org/abs/2002.00025v2
- Date: Mon, 15 Jun 2020 23:14:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-05 06:02:41.691449
- Title: Gating creates slow modes and controls phase-space complexity in GRUs
and LSTMs
- Title(参考訳): Gatingは低速モードを生成し、GRUとLSTMの位相空間の複雑さを制御する
- Authors: Tankut Can, Kamesh Krishnamurthy, David J. Schwab
- Abstract要約: ゲートの追加がGRUとLSTMの動的および訓練性に与える影響について検討した。
GRUの更新ゲートとLSTMの忘れゲートは、動的に遅いモードが蓄積される可能性があることを示す。
- 参考スコア(独自算出の注目度): 5.672132510411465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recurrent neural networks (RNNs) are powerful dynamical models for data with
complex temporal structure. However, training RNNs has traditionally proved
challenging due to exploding or vanishing of gradients. RNN models such as
LSTMs and GRUs (and their variants) significantly mitigate these issues
associated with training by introducing various types of gating units into the
architecture. While these gates empirically improve performance, how the
addition of gates influences the dynamics and trainability of GRUs and LSTMs is
not well understood. Here, we take the perspective of studying randomly
initialized LSTMs and GRUs as dynamical systems, and ask how the salient
dynamical properties are shaped by the gates. We leverage tools from random
matrix theory and mean-field theory to study the state-to-state Jacobians of
GRUs and LSTMs. We show that the update gate in the GRU and the forget gate in
the LSTM can lead to an accumulation of slow modes in the dynamics. Moreover,
the GRU update gate can poise the system at a marginally stable point. The
reset gate in the GRU and the output and input gates in the LSTM control the
spectral radius of the Jacobian, and the GRU reset gate also modulates the
complexity of the landscape of fixed-points. Furthermore, for the GRU we obtain
a phase diagram describing the statistical properties of fixed-points. We also
provide a preliminary comparison of training performance to the various
dynamical regimes realized by varying hyperparameters. Looking to the future,
we have introduced a powerful set of techniques which can be adapted to a broad
class of RNNs, to study the influence of various architectural choices on
dynamics, and potentially motivate the principled discovery of novel
architectures.
- Abstract(参考訳): リカレントニューラルネットワーク(RNN)は、複雑な時間構造を持つデータのための強力な動的モデルである。
しかし、RNNの訓練は、勾配の爆発や消滅によって伝統的に困難であることが証明されている。
LSTMやGRUなどのRNNモデルは、様々な種類のゲーティングユニットをアーキテクチャに導入することで、トレーニングに伴うこれらの問題を著しく軽減した。
これらのゲートの性能は実証的に向上するが,ゲートの追加がGRUとLSTMの動的および訓練性に与える影響はよく分かっていない。
そこで我々は,ランダムに初期化されたLSTMとGRUを動的システムとして研究し,ゲートによってどのように塩分力学特性が形成されるのかを問う。
確率行列理論と平均場理論のツールを用いて、GRUとLSTMの状態-状態ヤコビアンを研究する。
GRUの更新ゲートとLSTMの忘れゲートは、動的に遅いモードが蓄積される可能性があることを示す。
さらに、gru更新ゲートは、システムを略安定な位置にポーズすることができる。
GRUのリセットゲートとLSTMの出力ゲートと入力ゲートはヤコビアンの半径を制御し、GRUリセットゲートは固定点の風景の複雑さを変調する。
さらに、GRUに対して、固定点の統計的性質を記述する位相図を得る。
また,様々なハイパーパラメータによって実現される様々な動的レジームに対するトレーニング性能の予備的な比較を行った。
将来を見据えて、我々は、様々なアーキテクチャ選択がダイナミクスに与える影響を研究し、新しいアーキテクチャの原理的な発見を動機付けるために、幅広い種類のRNNに適応できる強力なテクニックのセットを導入しました。
関連論文リスト
- Deconstructing Recurrence, Attention, and Gating: Investigating the transferability of Transformers and Gated Recurrent Neural Networks in forecasting of dynamical systems [0.0]
我々は、RNNにおけるゲーティングと再発、トランスフォーマーにおける注意機構など、最も強力なニューラルネットワークアーキテクチャの主要なアーキテクチャコンポーネントを分解する。
重要な発見は、ニューラルゲーティングとアテンションは、ほとんどのタスクにおいて標準RNNの正確性を改善する一方で、トランスフォーマーにおける再発の概念の追加は有害である。
論文 参考訳(メタデータ) (2024-10-03T16:41:51Z) - Universal In-Context Approximation By Prompting Fully Recurrent Models [86.61942787684272]
RNN,LSTM,GRU,Linear RNN,Linear RNN,Line gated Architecturesは,汎用のインコンテキスト近似器として機能することを示す。
完全反復アーキテクチャにコンパイルするLSRLというプログラミング言語を導入する。
論文 参考訳(メタデータ) (2024-06-03T15:25:13Z) - Theoretical Foundations of Deep Selective State-Space Models [13.971499161967083]
ディープSSMは、さまざまなドメインセットで優れたパフォーマンスを示す。
最近の研究で、線形リカレンス電力が入力と隠れ状態の間の乗法的相互作用を可能にすることが示されている。
ランダム線形再帰が単純な入力制御遷移を備える場合、隠れ状態は強力な数学的対象の低次元射影であることを示す。
論文 参考訳(メタデータ) (2024-02-29T11:20:16Z) - Enhancing Automatic Modulation Recognition through Robust Global Feature
Extraction [12.868218616042292]
変調信号は長時間の時間依存性を示す。
人間の専門家は星座図のパターンを分析し、変調スキームを分類する。
古典的な畳み込みベースのネットワークは、局所的な特徴を抽出することに長けているが、グローバルな関係を捉えるのに苦労している。
論文 参考訳(メタデータ) (2024-01-02T06:31:24Z) - Disentangling Structured Components: Towards Adaptive, Interpretable and
Scalable Time Series Forecasting [52.47493322446537]
本研究では,時空間パターンの各コンポーネントを個別にモデル化する適応的,解釈可能,スケーラブルな予測フレームワークを開発する。
SCNNは、空間時間パターンの潜在構造を算術的に特徴づける、MSSの事前定義された生成プロセスで動作する。
SCNNが3つの実世界のデータセットの最先端モデルよりも優れた性能を達成できることを示すため、大規模な実験が行われた。
論文 参考訳(メタデータ) (2023-05-22T13:39:44Z) - ConCerNet: A Contrastive Learning Based Framework for Automated
Conservation Law Discovery and Trustworthy Dynamical System Prediction [82.81767856234956]
本稿では,DNNに基づく動的モデリングの信頼性を向上させるために,ConCerNetという新しい学習フレームワークを提案する。
本手法は, 座標誤差と保存量の両方において, ベースラインニューラルネットワークよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-02-11T21:07:30Z) - Reverse engineering recurrent neural networks with Jacobian switching
linear dynamical systems [24.0378100479104]
リカレントニューラルネットワーク(RNN)は時系列データを処理する強力なモデルである。
トレーニングされたRNNをその固定点を中心に線形化することでリバースエンジニアリングするフレームワークは洞察を与えてきたが、アプローチには大きな課題がある。
本稿では,新しい線形力学系 (SLDS) の定式化によるRNNの協調学習により,これらの制約を克服する新しいモデルを提案する。
論文 参考訳(メタデータ) (2021-11-01T20:49:30Z) - PredRNN: A Recurrent Neural Network for Spatiotemporal Predictive
Learning [109.84770951839289]
歴史的文脈からビジュアルダイナミクスを学習するための新しいリカレントネットワークであるPredRNNを紹介する。
本手法は,3つの標準データセット上で高い競争結果が得られることを示す。
論文 参考訳(メタデータ) (2021-03-17T08:28:30Z) - An Ode to an ODE [78.97367880223254]
我々は、O(d) 群上の行列フローに応じて主フローの時間依存パラメータが進化する ODEtoODE と呼ばれるニューラルODE アルゴリズムの新しいパラダイムを提案する。
この2つの流れのネストされたシステムは、訓練の安定性と有効性を提供し、勾配の消滅・爆発問題を確実に解決する。
論文 参考訳(メタデータ) (2020-06-19T22:05:19Z) - Refined Gate: A Simple and Effective Gating Mechanism for Recurrent
Units [68.30422112784355]
本稿では,この問題に対処する一般ゲートリカレントニューラルネットワークにおける新しいゲーティング機構を提案する。
提案したゲートは、抽出された入力特徴とバニラゲートの出力を直接的にショートする。
LSTM, GRU, MGUの3種類のゲートRNNに対して, 提案したゲーティング機構を検証する。
論文 参考訳(メタデータ) (2020-02-26T07:51:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。