論文の概要: Time-Scale Coupling Between States and Parameters in Recurrent Neural Networks
- arxiv url: http://arxiv.org/abs/2508.12121v2
- Date: Wed, 20 Aug 2025 07:10:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 12:38:45.405517
- Title: Time-Scale Coupling Between States and Parameters in Recurrent Neural Networks
- Title(参考訳): リカレントニューラルネットワークにおける状態とパラメータの時間スケール結合
- Authors: Lorenzo Livi,
- Abstract要約: ゲーテッドニューラルネットワーク(RNN)は、適応的な学習速度の振る舞いを暗黙的に誘発する。
効果は状態空間の時間スケールとパラメータ空間のダイナミクスの結合から生じる。
- 参考スコア(独自算出の注目度): 9.119424247289857
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study how gating mechanisms in recurrent neural networks (RNNs) implicitly induce adaptive learning-rate behavior, even when training is carried out with a fixed, global learning rate. This effect arises from the coupling between state-space time scales--parametrized by the gates--and parameter-space dynamics during gradient descent. By deriving exact Jacobians for leaky-integrator and gated RNNs, we obtain a first-order expansion that makes explicit how constant, scalar, and multi-dimensional gates reshape gradient propagation, modulate effective step sizes, and introduce anisotropy in parameter updates. These findings reveal that gates not only control information flow, but also act as data-driven preconditioners that adapt optimization trajectories in parameter space. We further draw formal analogies with learning-rate schedules, momentum, and adaptive methods such as Adam, pointing to possible redundancies. Empirical simulations corroborate these claims: in canonical synthetic sequence tasks (adding, copy) we show that gates induce lag-dependent effective learning rates and directional concentration of gradient flow, with multi-gate models matching or exceeding the anisotropic structure produced by Adam. These results highlight that optimizer-driven and gate-driven adaptivity are complementary but not equivalent mechanisms. Overall, this work provides a unified dynamical-systems perspective on how gating couples state evolution with parameter updates, explaining why gated architectures achieve robust trainability and stability in practice.
- Abstract(参考訳): 本研究では,リカレントニューラルネットワーク(RNN)におけるゲーティング機構が,固定されたグローバル学習率でトレーニングを行う場合においても,適応学習率の振る舞いを暗黙的に引き起こすかを検討する。
この効果は、ゲートによってパラメータ化される状態空間時間スケールと、勾配降下中のパラメータ空間ダイナミクスの結合から生じる。
リーク積分器とゲートRNNの正確なジャコビアンを導出することにより、勾配の伝播を定式化、スカラー化、多次元化を図り、有効なステップサイズを変調し、パラメータ更新における異方性を導入する一階展開が得られる。
これらの結果から,ゲートは情報フローを制御するだけでなく,パラメータ空間の最適化軌道に適応するデータ駆動型プレコンディショナーとして機能することがわかった。
さらに、学習速度のスケジュール、モーメント、Adamのような適応的な手法と形式的な類似を描き、冗長性の可能性を指し示します。
実験シミュレーションはこれらの主張を裏付ける: 標準合成シーケンスタスク(追加、コピー)において、ゲートはアダムが生成した異方性構造に一致するまたは超えるマルチゲートモデルで、ラグ依存の効果的な学習速度と勾配流の方向集中を誘導することを示す。
これらの結果は、オプティマイザ駆動とゲート駆動の適応性は相補的であるが等価なメカニズムではないことを示している。
全体として、この研究は、カップルの状態進化とパラメータの更新をどのように組み合わせるかについての統一された動的システム視点を提供し、ゲートアーキテクチャが実際に堅牢なトレーニング性と安定性を実現する理由を説明する。
関連論文リスト
- Hindsight-Guided Momentum (HGM) Optimizer: An Approach to Adaptive Learning Rate [0.0]
直近のアップデートに基づいて学習率を適応的にスケールする一階最適化アルゴリズムであるHindsight-Guided Momentumを導入する。
HGMは、コヒーレントな方向と矛盾する方向の学習速度を加速する後向きのメカニズムによってこの問題に対処する。
論文 参考訳(メタデータ) (2025-06-22T08:02:19Z) - Efficient Transformed Gaussian Process State-Space Models for Non-Stationary High-Dimensional Dynamical Systems [49.819436680336786]
本研究では,高次元非定常力学系のスケーラブルかつ柔軟なモデリングのための効率的な変換ガウス過程状態空間モデル(ETGPSSM)を提案する。
具体的には、ETGPSSMは、単一の共有GPと入力依存の正規化フローを統合し、複雑な非定常遷移ダイナミクスを捉える前に、表現的な暗黙のプロセスを生成する。
ETGPSSMは、計算効率と精度の観点から、既存のGPSSMとニューラルネットワークベースのSSMより優れています。
論文 参考訳(メタデータ) (2025-03-24T03:19:45Z) - Machine learning in and out of equilibrium [58.88325379746631]
我々の研究は、統計物理学から適応したフォッカー・プランク法を用いて、これらの平行線を探索する。
我々は特に、従来のSGDでは平衡が切れている長期的限界におけるシステムの定常状態に焦点を当てる。
本稿では,ミニバッチの置き換えを伴わない新しいランゲヴィンダイナミクス(SGLD)を提案する。
論文 参考訳(メタデータ) (2023-06-06T09:12:49Z) - Reparameterization through Spatial Gradient Scaling [69.27487006953852]
リパラメータ化は、学習中に畳み込み層を等価なマルチブランチ構造に変換することによって、ディープニューラルネットワークの一般化を改善することを目的としている。
本稿では,畳み込みネットワークにおける重み間の学習焦点を再分配する空間勾配スケーリング手法を提案する。
論文 参考訳(メタデータ) (2023-03-05T17:57:33Z) - SGD with Large Step Sizes Learns Sparse Features [22.959258640051342]
本稿では、ニューラルネットワークのトレーニングにおいて、グラディエント・ディフレッシュ(SGD)のダイナミクスの重要な特徴を紹介する。
より長いステップサイズでは、損失ランドスケープにおいてSGDは高く保たれ、暗黙の正規化がうまく機能し、スパース表現を見つけることができる。
論文 参考訳(メタデータ) (2022-10-11T11:00:04Z) - The Limiting Dynamics of SGD: Modified Loss, Phase Space Oscillations,
and Anomalous Diffusion [29.489737359897312]
勾配降下法(SGD)を訓練した深部ニューラルネットワークの限界ダイナミクスについて検討する。
これらのダイナミクスを駆動する重要な要素は、本来のトレーニング損失ではなく、位相空間の振動を引き起こす速度と確率電流を暗黙的に規則化する修正損失の組み合わせであることを示す。
論文 参考訳(メタデータ) (2021-07-19T20:18:57Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。