論文の概要: Revisiting Glorot Initialization for Long-Range Linear Recurrences
- arxiv url: http://arxiv.org/abs/2505.19827v1
- Date: Mon, 26 May 2025 11:04:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.376135
- Title: Revisiting Glorot Initialization for Long-Range Linear Recurrences
- Title(参考訳): ロングランジリニアリカレンスにおけるニンジン初期化の再検討
- Authors: Noga Bar, Mariia Seleznova, Yotam Alexander, Gitta Kutyniok, Raja Giryes,
- Abstract要約: Glorotは安定した信号伝搬を保証するように設計されている。
スペクトル半径の小さな正の偏差は時間を通して増幅され、隠れた状態が爆発する。
本稿では,Grorotのスペクトル半径をわずかに下方へシフトさせる簡易な次元認識再スケーリングを提案する。
- 参考スコア(独自算出の注目度): 35.51491162256673
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Proper initialization is critical for Recurrent Neural Networks (RNNs), particularly in long-range reasoning tasks, where repeated application of the same weight matrix can cause vanishing or exploding signals. A common baseline for linear recurrences is Glorot initialization, designed to ensure stable signal propagation--but derived under the infinite-width, fixed-length regime--an unrealistic setting for RNNs processing long sequences. In this work, we show that Glorot initialization is in fact unstable: small positive deviations in the spectral radius are amplified through time and cause the hidden state to explode. Our theoretical analysis demonstrates that sequences of length $t = O(\sqrt{n})$, where $n$ is the hidden width, are sufficient to induce instability. To address this, we propose a simple, dimension-aware rescaling of Glorot that shifts the spectral radius slightly below one, preventing rapid signal explosion or decay. These results suggest that standard initialization schemes may break down in the long-sequence regime, motivating a separate line of theory for stable recurrent initialization.
- Abstract(参考訳): 適切な初期化は、リカレントニューラルネットワーク(RNN)、特に同じ重み行列の繰り返し適用が消滅または爆発的な信号を引き起こす長距離推論タスクにおいて重要である。
リニアリカレンスのための一般的なベースラインは、安定な信号伝搬を保証するために設計されたGrorot初期化(英語版)であり、無限幅の固定長レジーム(英語版)の下で導出される、長いシーケンスを処理するRNNの非現実的な設定である。
この研究は、グロロットの初期化が実際に不安定であることを示し、スペクトル半径の小さな正の偏差は時間を通して増幅され、隠れた状態が爆発する。
我々の理論的解析は、長さ$t = O(\sqrt{n})$の列、つまり、n$は隠れた幅であり、不安定を誘導するのに十分であることを示す。
そこで本研究では,Grorotのスペクトル半径をわずかに下方へシフトさせ,信号の急激な爆発や崩壊を防止できる簡易な次元認識再スケーリング法を提案する。
これらの結果は、標準初期化スキームは、安定な再帰初期化のための別の理論のラインを動機づけて、長周期状態において崩壊する可能性があることを示唆している。
関連論文リスト
- The Inductive Bias of Flatness Regularization for Deep Matrix
Factorization [58.851514333119255]
この研究は、ディープ線形ネットワークにおけるヘッセン解の最小トレースの帰納バイアスを理解するための第一歩となる。
測定値の標準等尺性(RIP)が1より大きいすべての深さについて、ヘッセンのトレースを最小化することは、対応する終端行列パラメータのシャッテン 1-ノルムを最小化するのとほぼ同値であることを示す。
論文 参考訳(メタデータ) (2023-06-22T23:14:57Z) - Principles for Initialization and Architecture Selection in Graph Neural
Networks with ReLU Activations [17.51364577113718]
ReLUを活性化した有限幅グラフニューラルネットワーク(GNN)におけるアーキテクチャ選択の3つの原理を示す。
まず、よく知られた He-initialization の ReLU GNN への一意的な一般化を理論的に導出する。
第2に、有限幅バニラReLU GNNにおいて、固定アグリゲーション演算子を用いる場合、オーバースムーシングが大深度では避けられないことを証明する。
論文 参考訳(メタデータ) (2023-06-20T16:40:41Z) - Neural Networks with Sparse Activation Induced by Large Bias: Tighter Analysis with Bias-Generalized NTK [86.45209429863858]
ニューラル・タンジェント・カーネル(NTK)における一層ReLUネットワークのトレーニングについて検討した。
我々は、ニューラルネットワークが、テクティトビア一般化NTKと呼ばれる異なる制限カーネルを持っていることを示した。
ニューラルネットの様々な特性をこの新しいカーネルで研究する。
論文 参考訳(メタデータ) (2023-01-01T02:11:39Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z) - Implicit Bias of Linear RNNs [27.41989861342218]
リニアリカレントニューラルネットワーク(RNN)は、長期記憶を必要とするタスクではうまく機能しない。
本稿では,線形RNNの特殊な場合において,この性質を厳密に説明する。
近年開発されたカーネル構造解析を用いて,線形RNNは特定の重み付き1次元畳み込みネットワークと機能的に等価であることを示す。
論文 参考訳(メタデータ) (2021-01-19T19:39:28Z) - Short-Term Memory Optimization in Recurrent Neural Networks by
Autoencoder-based Initialization [79.42778415729475]
線形オートエンコーダを用いた列列の明示的暗記に基づく代替解を提案する。
このような事前学習が、長いシーケンスで難しい分類タスクを解くのにどのように役立つかを示す。
提案手法は, 長周期の復元誤差をはるかに小さくし, 微調整時の勾配伝播を良くすることを示す。
論文 参考訳(メタデータ) (2020-11-05T14:57:16Z) - Early stopping and polynomial smoothing in regression with reproducing kernels [2.0411082897313984]
再生カーネルヒルベルト空間(RKHS)における反復学習アルゴリズムの早期停止問題について検討する。
本稿では,いわゆる最小不一致原理に基づく検証セットを使わずに早期停止を行うデータ駆動型ルールを提案する。
提案したルールは、異なるタイプのカーネル空間に対して、ミニマックス最適であることが証明されている。
論文 参考訳(メタデータ) (2020-07-14T05:27:18Z) - Lipschitz Recurrent Neural Networks [100.72827570987992]
我々のリプシッツ再帰ユニットは、他の連続時間RNNと比較して、入力やパラメータの摂動に対してより堅牢であることを示す。
実験により,Lipschitz RNNは,ベンチマークタスクにおいて,既存のリカレントユニットよりも優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2020-06-22T08:44:52Z) - Batch Normalization Provably Avoids Rank Collapse for Randomly
Initialised Deep Networks [15.499554384036673]
バッチ正規化は線形ネットワークとReLUネットワークの両方のランク崩壊を避ける効果的な戦略である。
我々は、深い線形ネットワークにおいて有意義な下位ランクを導出する。
経験的に、このランクのロバスト性はReLUネットに一般化されることを実証する。
論文 参考訳(メタデータ) (2020-03-03T17:21:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。