論文の概要: KPFlow: An Operator Perspective on Dynamic Collapse Under Gradient Descent Training of Recurrent Networks
- arxiv url: http://arxiv.org/abs/2507.06381v1
- Date: Tue, 08 Jul 2025 20:33:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.384521
- Title: KPFlow: An Operator Perspective on Dynamic Collapse Under Gradient Descent Training of Recurrent Networks
- Title(参考訳): KPFlow: リカレントネットワークのグラディエントDescent Trainingにおける動的崩壊の操作者視点
- Authors: James Hazelden, Laura Driscoll, Eli Shlizerman, Eric Shea-Brown,
- Abstract要約: 勾配流を2つの作用素を含む積に分解する方法を示す。
それらの相互作用がGDの下での低次元潜在力学にどのように影響するかを示す。
マルチタスクトレーニングでは,各サブタスクの目的がどのように一致しているかを演算子を用いて測定できることが示される。
- 参考スコア(独自算出の注目度): 9.512147747894026
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Gradient Descent (GD) and its variants are the primary tool for enabling efficient training of recurrent dynamical systems such as Recurrent Neural Networks (RNNs), Neural ODEs and Gated Recurrent units (GRUs). The dynamics that are formed in these models exhibit features such as neural collapse and emergence of latent representations that may support the remarkable generalization properties of networks. In neuroscience, qualitative features of these representations are used to compare learning in biological and artificial systems. Despite recent progress, there remains a need for theoretical tools to rigorously understand the mechanisms shaping learned representations, especially in finite, non-linear models. Here, we show that the gradient flow, which describes how the model's dynamics evolve over GD, can be decomposed into a product that involves two operators: a Parameter Operator, K, and a Linearized Flow Propagator, P. K mirrors the Neural Tangent Kernel in feed-forward neural networks, while P appears in Lyapunov stability and optimal control theory. We demonstrate two applications of our decomposition. First, we show how their interplay gives rise to low-dimensional latent dynamics under GD, and, specifically, how the collapse is a result of the network structure, over and above the nature of the underlying task. Second, for multi-task training, we show that the operators can be used to measure how objectives relevant to individual sub-tasks align. We experimentally and theoretically validate these findings, providing an efficient Pytorch package, \emph{KPFlow}, implementing robust analysis tools for general recurrent architectures. Taken together, our work moves towards building a next stage of understanding of GD learning in non-linear recurrent models.
- Abstract(参考訳): GD(Gradient Descent)とその変種は、リカレントニューラルネットワーク(RNN)やニューラルODE(Neural ODE)、ゲーテッドリカレントユニット(GRU)といった、リカレントな動的システムの効率的なトレーニングを可能にする主要なツールである。
これらのモデルで形成される力学は、神経崩壊や、ネットワークの顕著な一般化特性を支持する潜在表現の出現のような特徴を示す。
神経科学において、これらの表現の質的な特徴は、生物学的システムと人工システムの学習を比較するために用いられる。
近年の進歩にもかかわらず、学習された表現を形成するメカニズムを厳密に理解する理論的なツール、特に有限で非線形なモデルが依然として必要である。
ここでは、モデルがGD上でどのように進化するかを記述する勾配流を、パラメータ演算子Kと線形フロープロパゲータP.Kという2つの演算子を含む積に分解できることを示し、一方Pはリアプノフ安定性と最適制御理論に現れる。
分解の2つの応用を実証する。
まず、これらの相互作用がGDの下で低次元の潜伏力学にどのように影響するかを示し、具体的には、崩壊がネットワーク構造の結果であり、その基礎となる課題のオーバー・アンド・オーバーであることを示す。
第二に、マルチタスクトレーニングにおいて、各サブタスクの目的がどのように一致しているかを演算子を用いて測定できることが示される。
我々はこれらの知見を実験的に理論的に検証し、より効率的なPytorchパッケージである \emph{KPFlow} を提供し、一般的なリカレントアーキテクチャのための堅牢な解析ツールを実装した。
本研究は,非線形リカレントモデルにおけるGD学習の理解の次の段階を構築することを目的としている。
関連論文リスト
- A Survey on Statistical Theory of Deep Learning: Approximation, Training Dynamics, and Generative Models [13.283281356356161]
本稿では3つの観点から,ニューラルネットワークの統計理論に関する文献をレビューする。
ニューラルネットワークの過剰なリスクに関する調査結果をレビューする。
ニューラルネットワークが、目に見えないデータでうまく一般化できるソリューションを見つける方法に答えようとする論文」をレビューする。
論文 参考訳(メタデータ) (2024-01-14T02:30:19Z) - How neural networks learn to classify chaotic time series [77.34726150561087]
本研究では,通常の逆カオス時系列を分類するために訓練されたニューラルネットワークの内部動作について検討する。
入力周期性とアクティベーション周期の関係は,LKCNNモデルの性能向上の鍵となる。
論文 参考訳(メタデータ) (2023-06-04T08:53:27Z) - Identifying Equivalent Training Dynamics [3.793387630509845]
共役および非共役のトレーニングダイナミクスを識別するフレームワークを開発する。
クープマン作用素理論の進歩を利用して、クープマン固有値を比較することで、オンラインミラー降下とオンライン勾配降下の既知同値を正しく同定できることを実証する。
a)浅層ニューラルネットワークと広層ニューラルネットワークの間の非共役トレーニングダイナミクスの同定、(b)畳み込みニューラルネットワークにおけるトレーニングダイナミクスの初期段階の特徴付け、(c)グルーキングを行わないトランスフォーマーにおける非共役トレーニングダイナミクスの発見。
論文 参考訳(メタデータ) (2023-02-17T22:15:20Z) - ConCerNet: A Contrastive Learning Based Framework for Automated
Conservation Law Discovery and Trustworthy Dynamical System Prediction [82.81767856234956]
本稿では,DNNに基づく動的モデリングの信頼性を向上させるために,ConCerNetという新しい学習フレームワークを提案する。
本手法は, 座標誤差と保存量の両方において, ベースラインニューラルネットワークよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-02-11T21:07:30Z) - The Underlying Correlated Dynamics in Neural Training [6.385006149689549]
ニューラルネットワークのトレーニングは、計算集約的なタスクである。
本稿では,パラメータのダイナミクスの相関に基づくモデルを提案する。
この表現は、基礎となるトレーニングダイナミクスの理解を深め、より良い加速技術を設計するための道を開くことができる。
論文 参考訳(メタデータ) (2022-12-18T08:34:11Z) - Decomposed Linear Dynamical Systems (dLDS) for learning the latent
components of neural dynamics [6.829711787905569]
本稿では,時系列データの非定常および非線形の複雑なダイナミクスを表現した新しい分解力学系モデルを提案する。
我々のモデルは辞書学習によって訓練され、最近の結果を利用してスパースベクトルを時間とともに追跡する。
連続時間と離散時間の両方の指導例において、我々のモデルは元のシステムによく近似できることを示した。
論文 参考訳(メタデータ) (2022-06-07T02:25:38Z) - An Ode to an ODE [78.97367880223254]
我々は、O(d) 群上の行列フローに応じて主フローの時間依存パラメータが進化する ODEtoODE と呼ばれるニューラルODE アルゴリズムの新しいパラダイムを提案する。
この2つの流れのネストされたシステムは、訓練の安定性と有効性を提供し、勾配の消滅・爆発問題を確実に解決する。
論文 参考訳(メタデータ) (2020-06-19T22:05:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。