論文の概要: Time-Scale Coupling Between States and Parameters in Recurrent Neural Networks
- arxiv url: http://arxiv.org/abs/2508.12121v1
- Date: Sat, 16 Aug 2025 18:19:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.575931
- Title: Time-Scale Coupling Between States and Parameters in Recurrent Neural Networks
- Title(参考訳): リカレントニューラルネットワークにおける状態とパラメータの時間スケール結合
- Authors: Lorenzo Livi,
- Abstract要約: 本稿では,リカレントニューラルネットワーク(RNN)におけるゲーティング機構が適応学習速度の振る舞いを暗黙的に誘発する方法について検討する。
この効果は状態空間の時間スケールとパラメータ空間のダイナミクスの結合から生じる。
- 参考スコア(独自算出の注目度): 9.119424247289857
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study how gating mechanisms in recurrent neural networks (RNNs) implicitly induce adaptive learning-rate behavior, even when training is carried out with a fixed, global learning rate. This effect arises from the coupling between state-space time scales--parametrized by the gates--and parameter-space dynamics during gradient descent. By deriving exact Jacobians for leaky-integrator and gated RNNs, we obtain a first-order expansion that makes explicit how constant, scalar, and multi-dimensional gates reshape gradient propagation, modulate effective step sizes, and introduce anisotropy in parameter updates. These findings reveal that gates not only control memory retention in the hidden states, but also act as data-driven preconditioners that adapt optimization trajectories in parameter space. We further draw formal analogies with learning-rate schedules, momentum, and adaptive methods such as Adam, showing that these optimization behaviors emerge naturally from gating. Numerical experiments confirm the validity of our perturbative analysis, supporting the view that gate-induced corrections remain small while exerting systematic effects on training dynamics. Overall, this work provides a unified dynamical-systems perspective on how gating couples state evolution with parameter updates, explaining why gated architectures achieve robust trainability and stability in practice.
- Abstract(参考訳): 本研究では,リカレントニューラルネットワーク(RNN)におけるゲーティング機構が,固定されたグローバル学習率でトレーニングを行う場合においても,適応学習率の振る舞いを暗黙的に引き起こすかを検討する。
この効果は、ゲートによってパラメータ化される状態空間時間スケールと、勾配降下中のパラメータ空間ダイナミクスの結合から生じる。
リーク積分器とゲートRNNの正確なジャコビアンを導出することにより、勾配の伝播を定式化、スカラー化、多次元化を図り、有効なステップサイズを変調し、パラメータ更新における異方性を導入する一階展開が得られる。
これらの結果から,ゲートは隠蔽状態におけるメモリ保持を制御するだけでなく,パラメータ空間の最適化軌道に適応するデータ駆動型プレコンディショナーとして機能することがわかった。
さらに、Adamのような学習速度のスケジュールや運動量、適応的な手法とフォーマルな類似性を引き合いに出し、これらの最適化行動がゲーティングから自然に現れることを示す。
数値実験により我々の摂動解析の有効性が確認され、ゲート誘起補正が訓練力学に系統的な影響を及ぼしながらも小さいという見方が支持された。
全体として、この研究は、カップルの状態進化とパラメータの更新をどのように組み合わせるかについての統一された動的システム視点を提供し、ゲートアーキテクチャが実際に堅牢なトレーニング性と安定性を実現する理由を説明する。
関連論文リスト
- Hindsight-Guided Momentum (HGM) Optimizer: An Approach to Adaptive Learning Rate [0.0]
直近のアップデートに基づいて学習率を適応的にスケールする一階最適化アルゴリズムであるHindsight-Guided Momentumを導入する。
HGMは、コヒーレントな方向と矛盾する方向の学習速度を加速する後向きのメカニズムによってこの問題に対処する。
論文 参考訳(メタデータ) (2025-06-22T08:02:19Z) - Efficient Transformed Gaussian Process State-Space Models for Non-Stationary High-Dimensional Dynamical Systems [49.819436680336786]
本研究では,高次元非定常力学系のスケーラブルかつ柔軟なモデリングのための効率的な変換ガウス過程状態空間モデル(ETGPSSM)を提案する。
具体的には、ETGPSSMは、単一の共有GPと入力依存の正規化フローを統合し、複雑な非定常遷移ダイナミクスを捉える前に、表現的な暗黙のプロセスを生成する。
ETGPSSMは、計算効率と精度の観点から、既存のGPSSMとニューラルネットワークベースのSSMより優れています。
論文 参考訳(メタデータ) (2025-03-24T03:19:45Z) - Machine learning in and out of equilibrium [58.88325379746631]
我々の研究は、統計物理学から適応したフォッカー・プランク法を用いて、これらの平行線を探索する。
我々は特に、従来のSGDでは平衡が切れている長期的限界におけるシステムの定常状態に焦点を当てる。
本稿では,ミニバッチの置き換えを伴わない新しいランゲヴィンダイナミクス(SGLD)を提案する。
論文 参考訳(メタデータ) (2023-06-06T09:12:49Z) - Reparameterization through Spatial Gradient Scaling [69.27487006953852]
リパラメータ化は、学習中に畳み込み層を等価なマルチブランチ構造に変換することによって、ディープニューラルネットワークの一般化を改善することを目的としている。
本稿では,畳み込みネットワークにおける重み間の学習焦点を再分配する空間勾配スケーリング手法を提案する。
論文 参考訳(メタデータ) (2023-03-05T17:57:33Z) - SGD with Large Step Sizes Learns Sparse Features [22.959258640051342]
本稿では、ニューラルネットワークのトレーニングにおいて、グラディエント・ディフレッシュ(SGD)のダイナミクスの重要な特徴を紹介する。
より長いステップサイズでは、損失ランドスケープにおいてSGDは高く保たれ、暗黙の正規化がうまく機能し、スパース表現を見つけることができる。
論文 参考訳(メタデータ) (2022-10-11T11:00:04Z) - The Limiting Dynamics of SGD: Modified Loss, Phase Space Oscillations,
and Anomalous Diffusion [29.489737359897312]
勾配降下法(SGD)を訓練した深部ニューラルネットワークの限界ダイナミクスについて検討する。
これらのダイナミクスを駆動する重要な要素は、本来のトレーニング損失ではなく、位相空間の振動を引き起こす速度と確率電流を暗黙的に規則化する修正損失の組み合わせであることを示す。
論文 参考訳(メタデータ) (2021-07-19T20:18:57Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。