論文の概要: Learnability Window in Gated Recurrent Neural Networks
- arxiv url: http://arxiv.org/abs/2512.05790v1
- Date: Fri, 05 Dec 2025 15:16:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:57.076273
- Title: Learnability Window in Gated Recurrent Neural Networks
- Title(参考訳): Gated Recurrent Neural Networksにおける学習性ウィンドウ
- Authors: Lorenzo Livi,
- Abstract要約: ゲート機構は、リカレントニューラルネットワークの学習性ウィンドウ$mathcalH_N$を決定する。
学習容易性は,効果学習率$_t,ell$,ラグあたり,ニューロンあたりの量によって制御されていることを示す。
- 参考スコア(独自算出の注目度): 3.924071936547547
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We develop a theoretical framework that explains how gating mechanisms determine the learnability window $\mathcal{H}_N$ of recurrent neural networks, defined as the largest temporal horizon over which gradient information remains statistically recoverable. While classical analyses emphasize numerical stability of Jacobian products, we show that stability alone is insufficient: learnability is governed instead by the \emph{effective learning rates} $μ_{t,\ell}$, per-lag and per-neuron quantities obtained from first-order expansions of gate-induced Jacobian products in Backpropagation Through Time. These effective learning rates act as multiplicative filters that control both the magnitude and anisotropy of gradient transport. Under heavy-tailed ($α$-stable) gradient noise, we prove that the minimal sample size required to detect a dependency at lag~$\ell$ satisfies $N(\ell)\propto f(\ell)^{-α}$, where $f(\ell)=\|μ_{t,\ell}\|_1$ is the effective learning rate envelope. This leads to an explicit formula for $\mathcal{H}_N$ and closed-form scaling laws for logarithmic, polynomial, and exponential decay of $f(\ell)$. The theory predicts that broader or more heterogeneous gate spectra produce slower decay of $f(\ell)$ and hence larger learnability windows, whereas heavier-tailed noise compresses $\mathcal{H}_N$ by slowing statistical concentration. By linking gate-induced time-scale structure, gradient noise, and sample complexity, the framework identifies the effective learning rates as the fundamental quantities that govern when -- and for how long -- gated recurrent networks can learn long-range temporal dependencies.
- Abstract(参考訳): 我々は、勾配情報が統計的に回復可能な最大の時間的地平線として定義されるリカレントニューラルネットワークの学習性ウィンドウ$\mathcal{H}_N$をゲーティング機構がどのように決定するかを説明する理論的枠組みを開発する。
学習容易性は、バックプロパゲーション・スルー・タイムにおけるゲート誘導ジャコビアン生成物の1次展開から得られる「emph{ Effective learning rate} $μ_{t,\ell}$, per-lag and per-neuron amount」によって支配される。
これらの効果的な学習速度は、勾配輸送の大きさと異方性の両方を制御する乗法フィルタとして機能する。
重み付き(α$-stable)勾配雑音の下では、lag~$\ell$で依存を検出するのに必要な最小限のサンプルサイズが$N(\ell)\propto f(\ell)^{-α}$であり、$f(\ell)=\|μ_{t,\ell}\|_1$は効果的な学習率エンベロープであることを示す。
これにより、$\mathcal{H}_N$ の明示的な公式と対数、多項式、指数関数の $f(\ell)$ の閉形式スケーリング法則が導かれる。
この理論は、より広いまたはより異質なゲートスペクトルが$f(\ell)$の緩やかな崩壊を生じ、従ってより大きな学習性窓が生じると予測し、一方、重み付けされたノイズ圧縮は統計的濃度を遅くすることで$\mathcal{H}_N$を圧縮する。
ゲートによって引き起こされる時間スケール構造、勾配ノイズ、サンプルの複雑さをリンクすることで、このフレームワークは効果的な学習率を、いつ、どのくらいの期間、ゲートされたリカレントネットワークが長期の時間的依存を学習できるかを決定する基本的な量として特定する。
関連論文リスト
- Learning Intersections of Two Margin Halfspaces under Factorizable Distributions [56.51474048985742]
ハーフスペースの交叉学習は計算学習理論における中心的な問題である。
たった2つのハーフスペースであっても、学習が時間内に可能かどうかという大きな疑問が残る。
本稿ではCSQ硬度障壁を確実に回避する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-11-13T00:28:24Z) - FFT-Accelerated Auxiliary Variable MCMC for Fermionic Lattice Models: A Determinant-Free Approach with $O(N\log N)$ Complexity [52.3171766248012]
量子多体系のシミュレーションを劇的に高速化するマルコフ連鎖モンテカルロ(MCMC)アルゴリズムを導入する。
我々は,量子物理学のベンチマーク問題に対するアルゴリズムの有効性を検証し,既知の理論結果を正確に再現する。
我々の研究は、大規模確率的推論のための強力なツールを提供し、物理学に着想を得た生成モデルのための道を開く。
論文 参考訳(メタデータ) (2025-10-13T07:57:21Z) - Faster Convergence of Riemannian Stochastic Gradient Descent with Increasing Batch Size [7.2620484413601325]
バッチサイズの増加は、一定のバッチサイズを使用するよりも早く収束する。
バッチサイズの増加はRSGDの複雑さを減少させることがわかった。
論文 参考訳(メタデータ) (2025-01-30T06:23:28Z) - Learning with Norm Constrained, Over-parameterized, Two-layer Neural Networks [54.177130905659155]
近年の研究では、再生カーネルヒルベルト空間(RKHS)がニューラルネットワークによる関数のモデル化に適した空間ではないことが示されている。
本稿では,有界ノルムを持つオーバーパラメータ化された2層ニューラルネットワークに適した関数空間について検討する。
論文 参考訳(メタデータ) (2024-04-29T15:04:07Z) - Convex Relaxations of ReLU Neural Networks Approximate Global Optima in Polynomial Time [45.72323731094864]
本稿では,2層ReLULUネットワーク間における重み減衰と凸緩和の最適性ギャップについて検討する。
私たちの研究は、なぜローカルメソッドがうまく機能するのかを理解することに新たな光を当てています。
論文 参考訳(メタデータ) (2024-02-06T01:29:35Z) - Hidden Progress in Deep Learning: SGD Learns Parities Near the
Computational Limit [36.17720004582283]
この研究は、$k$sparseパリティを$n$bitsで学習するレンズを通してそのような探索を行う。
データセットのサイズと実行時間をスケールアップする際、ニューラルネットワークは驚くほどの位相遷移を示す。
論文 参考訳(メタデータ) (2022-07-18T17:55:05Z) - Improved rates for prediction and identification of partially observed
linear dynamical systems [4.68299658663016]
部分的な観測から線形時間イン力学系の同定は制御理論の基本的な問題である。
本稿では,システム固有の$d$に依存する非漸近統計率でそのようなシステムを学習するアルゴリズムを提案する。
本アルゴリズムは,ハンケル行列に適用したマルチスケール低ランク近似SVDに基づく。
論文 参考訳(メタデータ) (2020-11-19T18:04:18Z) - Large-time asymptotics in deep learning [0.0]
トレーニングにおける最終時間の$T$(対応するResNetの深さを示す可能性がある)の影響について検討する。
古典的な$L2$-正規化経験的リスク最小化問題に対して、トレーニングエラーが$mathcalOleft(frac1Tright)$のほとんどであることを示す。
$ellp$-距離損失の設定において、トレーニングエラーと最適パラメータの両方が$mathcalOleft(e-mu)の順序のほとんどであることを示す。
論文 参考訳(メタデータ) (2020-08-06T07:33:17Z) - On Learning Rates and Schr\"odinger Operators [105.32118775014015]
本稿では,学習率の影響に関する一般的な理論的分析を行う。
学習速度は、幅広い非ニューラルクラス関数に対してゼロとなる傾向にある。
論文 参考訳(メタデータ) (2020-04-15T09:52:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。