論文の概要: Implicit Bias of Linear RNNs
- arxiv url: http://arxiv.org/abs/2101.07833v1
- Date: Tue, 19 Jan 2021 19:39:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-22 11:23:36.653754
- Title: Implicit Bias of Linear RNNs
- Title(参考訳): 線形rnnの暗黙的バイアス
- Authors: Melikasadat Emami, Mojtaba Sahraee-Ardakan, Parthe Pandit, Sundeep
Rangan, Alyson K. Fletcher
- Abstract要約: リニアリカレントニューラルネットワーク(RNN)は、長期記憶を必要とするタスクではうまく機能しない。
本稿では,線形RNNの特殊な場合において,この性質を厳密に説明する。
近年開発されたカーネル構造解析を用いて,線形RNNは特定の重み付き1次元畳み込みネットワークと機能的に等価であることを示す。
- 参考スコア(独自算出の注目度): 27.41989861342218
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contemporary wisdom based on empirical studies suggests that standard
recurrent neural networks (RNNs) do not perform well on tasks requiring
long-term memory. However, precise reasoning for this behavior is still
unknown. This paper provides a rigorous explanation of this property in the
special case of linear RNNs. Although this work is limited to linear RNNs, even
these systems have traditionally been difficult to analyze due to their
non-linear parameterization. Using recently-developed kernel regime analysis,
our main result shows that linear RNNs learned from random initializations are
functionally equivalent to a certain weighted 1D-convolutional network.
Importantly, the weightings in the equivalent model cause an implicit bias to
elements with smaller time lags in the convolution and hence, shorter memory.
The degree of this bias depends on the variance of the transition kernel matrix
at initialization and is related to the classic exploding and vanishing
gradients problem. The theory is validated in both synthetic and real data
experiments.
- Abstract(参考訳): 経験的研究に基づく現代の知恵は、標準リカレントニューラルネットワーク(RNN)が長期記憶を必要とするタスクではうまく機能しないことを示している。
しかし、この行動の正確な理由は不明である。
本稿では、線形RNNの特殊な場合において、この特性を厳密に説明する。
この研究は線形RNNに限られているが、伝統的にこれらのシステムでさえ非線形パラメータ化のため解析が困難であった。
近年開発されたカーネルレジーム解析を用いて,ランダム初期化から学習した線形rnnが,重み付き1次元畳み込みネットワークと機能的に等価であることを示す。
重要なことに、等価モデルの重み付けは、畳み込みの時間ラグが小さく、従ってメモリが短い要素に暗黙の偏りをもたらす。
このバイアスの程度は初期化における遷移核行列の分散に依存し、古典的な爆発および消滅勾配問題と関連している。
この理論は合成実験と実データ実験の両方で検証されている。
関連論文リスト
- Matrix Completion via Nonsmooth Regularization of Fully Connected Neural Networks [7.349727826230864]
ディープニューラルネットワークのような非線形推定器を使うことで、性能の向上が達成できることが示されている。
本稿では,標準中間表現の観点から,FCNNモデルの正規化によるオーバーフィット制御を行う。
本シミュレーションは,既存の線形および非線形アルゴリズムと比較して,提案アルゴリズムの優位性を示す。
論文 参考訳(メタデータ) (2024-03-15T12:00:37Z) - How neural networks learn to classify chaotic time series [77.34726150561087]
本研究では,通常の逆カオス時系列を分類するために訓練されたニューラルネットワークの内部動作について検討する。
入力周期性とアクティベーション周期の関係は,LKCNNモデルの性能向上の鍵となる。
論文 参考訳(メタデータ) (2023-06-04T08:53:27Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - Inverse Approximation Theory for Nonlinear Recurrent Neural Networks [28.840757822712195]
我々は、リカレントニューラルネットワーク(RNN)を用いた非線形列列列関係の近似に対する逆近似定理を証明した。
非線形RNNによって安定に近似できる非線形シーケンス関係は指数的に減衰するメモリ構造を持つ必要があることを示す。
これにより、線形RNNにおける以前同定されたメモリの呪いが一般的な非線形設定に拡張される。
論文 参考訳(メタデータ) (2023-05-30T16:34:28Z) - Learning Discretized Neural Networks under Ricci Flow [51.36292559262042]
低精度重みとアクティベーションからなる離散ニューラルネットワーク(DNN)について検討する。
DNNは、訓練中に微分不可能な離散関数のために無限あるいはゼロの勾配に悩まされる。
論文 参考訳(メタデータ) (2023-02-07T10:51:53Z) - Learning Low Dimensional State Spaces with Overparameterized Recurrent
Neural Nets [57.06026574261203]
我々は、長期記憶をモデル化できる低次元状態空間を学習するための理論的証拠を提供する。
実験は、線形RNNと非線形RNNの両方で低次元状態空間を学習することで、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2022-10-25T14:45:15Z) - Discovering Invariant Rationales for Graph Neural Networks [104.61908788639052]
グラフニューラルネットワーク(GNN)の固有の解釈可能性とは、入力グラフの特徴の小さなサブセットを見つけることである。
本稿では,本質的に解釈可能なGNNを構築するために,不変理性(DIR)を発見するための新しい戦略を提案する。
論文 参考訳(メタデータ) (2022-01-30T16:43:40Z) - Fast Axiomatic Attribution for Neural Networks [44.527672563424545]
最近のアプローチには、望ましくない機能への依存を減らすために、トレーニングプロセスにディープニューラルネットワーク(DNN)の機能帰属に関する先行が含まれている。
本稿では, 1 つの前方/後方パスのみを用いて, 公理的特徴属性を計算できる DNN の高効率な公理的帰属性について考察する。
様々な実験により、$mathcalX$-DNNsの利点が示され、通常のDNNに対する最先端の一般的な帰属法を破り、帰属前の訓練に役立てられる。
論文 参考訳(メタデータ) (2021-11-15T10:51:01Z) - How to train RNNs on chaotic data? [7.276372008305615]
リカレントニューラルネットワーク(Recurrent Neural Network, RNN)は、シーケンシャルおよび時系列データをモデリングするための広帯域機械学習ツールである。
トレーニング中の損失勾配は、トレーニング中に飽和または分散する傾向にあるため、トレーニングが難しいことが知られている。
ここでは、RNN学習中の損失勾配をRNN生成軌道のリャプノフスペクトルに関連付けることで、この問題を包括的に理論的に扱う。
論文 参考訳(メタデータ) (2021-10-14T09:07:42Z) - Improving predictions of Bayesian neural nets via local linearization [79.21517734364093]
ガウス・ニュートン近似は基礎となるベイズニューラルネットワーク(BNN)の局所線形化として理解されるべきである。
この線形化モデルを後部推論に使用するので、元のモデルではなく、この修正モデルを使用することも予測すべきである。
この修正された予測を"GLM predictive"と呼び、Laplace近似の共通不適合問題を効果的に解決することを示す。
論文 参考訳(メタデータ) (2020-08-19T12:35:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。