論文の概要: Bifurcations and loss jumps in RNN training
- arxiv url: http://arxiv.org/abs/2310.17561v1
- Date: Thu, 26 Oct 2023 16:49:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 18:55:33.403536
- Title: Bifurcations and loss jumps in RNN training
- Title(参考訳): RNNトレーニングにおける分岐と損失ジャンプ
- Authors: Lukas Eisenmann, Zahra Monfared, Niclas Alexander G\"oring, Daniel
Durstewitz
- Abstract要約: 本稿では,ReLUベースのRNNにおけるすべての固定点とkサイクルとその存在と安定性領域を検出するアルゴリズムを提案する。
我々のアルゴリズムは正確な結果を提供し、驚くほど優れたスケーリング動作で固定点とサイクルを高次に返却する。
- 参考スコア(独自算出の注目度): 7.937801286897863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recurrent neural networks (RNNs) are popular machine learning tools for
modeling and forecasting sequential data and for inferring dynamical systems
(DS) from observed time series. Concepts from DS theory (DST) have variously
been used to further our understanding of both, how trained RNNs solve complex
tasks, and the training process itself. Bifurcations are particularly important
phenomena in DS, including RNNs, that refer to topological (qualitative)
changes in a system's dynamical behavior as one or more of its parameters are
varied. Knowing the bifurcation structure of an RNN will thus allow to deduce
many of its computational and dynamical properties, like its sensitivity to
parameter variations or its behavior during training. In particular,
bifurcations may account for sudden loss jumps observed in RNN training that
could severely impede the training process. Here we first mathematically prove
for a particular class of ReLU-based RNNs that certain bifurcations are indeed
associated with loss gradients tending toward infinity or zero. We then
introduce a novel heuristic algorithm for detecting all fixed points and
k-cycles in ReLU-based RNNs and their existence and stability regions, hence
bifurcation manifolds in parameter space. In contrast to previous numerical
algorithms for finding fixed points and common continuation methods, our
algorithm provides exact results and returns fixed points and cycles up to high
orders with surprisingly good scaling behavior. We exemplify the algorithm on
the analysis of the training process of RNNs, and find that the recently
introduced technique of generalized teacher forcing completely avoids certain
types of bifurcations in training. Thus, besides facilitating the DST analysis
of trained RNNs, our algorithm provides a powerful instrument for analyzing the
training process itself.
- Abstract(参考訳): リカレントニューラルネットワーク(RNN)は、シーケンシャルデータのモデリングと予測、および観測時系列から動的システム(DS)を推定するための一般的な機械学習ツールである。
ds理論(dst)の概念は、トレーニングされたrnnが複雑なタスクをどのように解決するか、トレーニングプロセス自体を理解するために様々な用途に使われてきた。
ビフルケーションはDSにおいて特に重要な現象であり、RNNはシステムの力学挙動におけるトポロジカルな変化を1つ以上のパラメータとして言及する。
したがって、RNNの分岐構造を知ることで、パラメータの変動に対する感度やトレーニング中の振る舞いなど、計算的および動的特性の多くを導出することができる。
特に、分岐は、RNNトレーニングで観察された突然の損失ジャンプを考慮し、トレーニングプロセスに深刻な障害を与える可能性がある。
ここでは、ReLUベースのRNNの特定のクラスについて、ある分岐が、無限大やゼロに傾向のある損失勾配と実際に関連していることを数学的に証明する。
次に、ReLUベースのRNNにおけるすべての固定点とkサイクルとその存在と安定性領域を検出する新しいヒューリスティックアルゴリズムを導入する。
従来の不動点や共通継続法を求める数値アルゴリズムとは対照的に,本アルゴリズムは正確な結果を提供し,高次までの不動点とサイクルを,驚くほどよいスケーリング動作で返却する。
本稿では,rnnの学習過程の分析に関するアルゴリズムを例示し,最近導入された一般化教師の技法が,訓練におけるある種の分岐を完全に回避していることを示す。
したがって、トレーニングされたRNNのDST解析を容易にすることに加えて、我々のアルゴリズムはトレーニングプロセス自体を分析するための強力な手段を提供する。
関連論文リスト
- Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Learning Low Dimensional State Spaces with Overparameterized Recurrent
Neural Nets [57.06026574261203]
我々は、長期記憶をモデル化できる低次元状態空間を学習するための理論的証拠を提供する。
実験は、線形RNNと非線形RNNの両方で低次元状態空間を学習することで、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2022-10-25T14:45:15Z) - Lyapunov-Guided Representation of Recurrent Neural Network Performance [9.449520199858952]
リカレントニューラルネットワーク(Recurrent Neural Networks、RNN)は、シーケンスと時系列データのためのユビキタスコンピューティングシステムである。
本稿では,RNNを力学系として扱うとともに,リアプノフスペクトル解析を用いてハイパーパラメータを高精度に相関する手法を提案する。
各種RNNアーキテクチャの研究により,AeLLEはRNNリアプノフスペクトルと精度の相関が得られた。
論文 参考訳(メタデータ) (2022-04-11T05:38:38Z) - Reverse engineering recurrent neural networks with Jacobian switching
linear dynamical systems [24.0378100479104]
リカレントニューラルネットワーク(RNN)は時系列データを処理する強力なモデルである。
トレーニングされたRNNをその固定点を中心に線形化することでリバースエンジニアリングするフレームワークは洞察を与えてきたが、アプローチには大きな課題がある。
本稿では,新しい線形力学系 (SLDS) の定式化によるRNNの協調学習により,これらの制約を克服する新しいモデルを提案する。
論文 参考訳(メタデータ) (2021-11-01T20:49:30Z) - What training reveals about neural network complexity [80.87515604428346]
この研究は、ディープニューラルネットワーク(NN)が学習している関数の複雑さは、トレーニング中にその重みがどれほど速く変化するかによって推定できるという仮説を探求する。
我々の結果は、優れた訓練行動が良い一般化への有用なバイアスとなるという仮説を支持している。
論文 参考訳(メタデータ) (2021-06-08T08:58:00Z) - Skip-Connected Self-Recurrent Spiking Neural Networks with Joint
Intrinsic Parameter and Synaptic Weight Training [14.992756670960008]
我々はSkip-Connected Self-Recurrent SNNs (ScSr-SNNs) と呼ばれる新しいタイプのRSNNを提案する。
ScSr-SNNは、最先端BP法で訓練された他のタイプのRSNNと比較して、パフォーマンスを最大2.55%向上させることができる。
論文 参考訳(メタデータ) (2020-10-23T22:27:13Z) - Modeling from Features: a Mean-field Framework for Over-parameterized
Deep Neural Networks [54.27962244835622]
本稿では、オーバーパラメータ化ディープニューラルネットワーク(DNN)のための新しい平均場フレームワークを提案する。
このフレームワークでは、DNNは連続的な極限におけるその特徴に対する確率測度と関数によって表現される。
本稿では、標準DNNとResidual Network(Res-Net)アーキテクチャを通してフレームワークを説明する。
論文 参考訳(メタデータ) (2020-07-03T01:37:16Z) - Provably Efficient Neural Estimation of Structural Equation Model: An
Adversarial Approach [144.21892195917758]
一般化構造方程式モデル(SEM)のクラスにおける推定について検討する。
線形作用素方程式をmin-maxゲームとして定式化し、ニューラルネットワーク(NN)でパラメータ化し、勾配勾配を用いてニューラルネットワークのパラメータを学習する。
提案手法は,サンプル分割を必要とせず,確固とした収束性を持つNNをベースとしたSEMの抽出可能な推定手順を初めて提供する。
論文 参考訳(メタデータ) (2020-07-02T17:55:47Z) - Fast Learning of Graph Neural Networks with Guaranteed Generalizability:
One-hidden-layer Case [93.37576644429578]
グラフニューラルネットワーク(GNN)は、グラフ構造化データから実際に学習する上で、近年大きな進歩を遂げている。
回帰問題と二項分類問題の両方に隠れ層を持つGNNの理論的に基底的な一般化可能性解析を行う。
論文 参考訳(メタデータ) (2020-06-25T00:45:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。