論文の概要: Towards a theory of learning dynamics in deep state space models
- arxiv url: http://arxiv.org/abs/2407.07279v1
- Date: Wed, 10 Jul 2024 00:01:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-11 18:21:11.943041
- Title: Towards a theory of learning dynamics in deep state space models
- Title(参考訳): 深部状態空間モデルにおける学習力学の理論に向けて
- Authors: Jakub Smékal, Jimmy T. H. Smith, Michael Kleinman, Dan Biderman, Scott W. Linderman,
- Abstract要約: 状態空間モデル(SSM)は多くの長いシーケンスモデリングタスクにおいて顕著な経験的性能を示した。
この研究は、ディープステート空間モデルにおける動的学習の理論への一歩である。
- 参考スコア(独自算出の注目度): 12.262490032020832
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State space models (SSMs) have shown remarkable empirical performance on many long sequence modeling tasks, but a theoretical understanding of these models is still lacking. In this work, we study the learning dynamics of linear SSMs to understand how covariance structure in data, latent state size, and initialization affect the evolution of parameters throughout learning with gradient descent. We show that focusing on the learning dynamics in the frequency domain affords analytical solutions under mild assumptions, and we establish a link between one-dimensional SSMs and the dynamics of deep linear feed-forward networks. Finally, we analyze how latent state over-parameterization affects convergence time and describe future work in extending our results to the study of deep SSMs with nonlinear connections. This work is a step toward a theory of learning dynamics in deep state space models.
- Abstract(参考訳): 状態空間モデル(SSM)は多くの長いシーケンスモデリングタスクにおいて顕著な経験的性能を示しているが、これらのモデルに関する理論的理解はいまだに不足している。
本研究では,線形SSMの学習力学を解析し,データの共分散構造,潜時状態サイズ,初期化が勾配降下学習におけるパラメータの進化にどのように影響するかを明らかにする。
本研究では,周波数領域における学習力学に焦点をあてることで,一次元SSMと深い線形フィードフォワードネットワークのダイナミックスとのリンクを確立することができることを示す。
最後に,遅延状態の過度パラメータ化が収束時間にどのように影響するかを分析し,非線形接続を持つ深部SSMの研究にその結果を拡張するための今後の研究について述べる。
この研究は、ディープステート空間モデルにおける動的学習の理論への一歩である。
関連論文リスト
- HiPPO-Prophecy: State-Space Models can Provably Learn Dynamical Systems in Context [0.5416466085090772]
本研究では、状態空間モデル(SSM)の文脈内学習能力について検討する。
我々はSSMの新たな重み構造を導入し、任意の力学系の次の状態を予測できるようにした。
我々は、連続SSMが任意の入力信号の微分を近似できることを示すために、HiPPOフレームワークを拡張した。
論文 参考訳(メタデータ) (2024-07-12T15:56:11Z) - Understanding the differences in Foundation Models: Attention, State Space Models, and Recurrent Neural Networks [50.29356570858905]
本稿では,これらすべてのアーキテクチャの共通表現に関する原則的な調査を可能にする動的システムフレームワーク(DSF)について紹介する。
ソフトマックスアテンションと他のモデルクラスとの原理的比較を行い、ソフトマックスアテンションを近似できる理論条件について議論する。
このことは、DSFが将来のより効率的でスケーラブルな基盤モデルの体系的な開発を導く可能性を示している。
論文 参考訳(メタデータ) (2024-05-24T17:19:57Z) - Latent Traversals in Generative Models as Potential Flows [113.4232528843775]
我々は,学習された動的ポテンシャルランドスケープを持つ潜在構造をモデル化することを提案する。
物理、最適輸送、神経科学にインスパイアされたこれらの潜在的景観は、物理的に現実的な偏微分方程式として学習される。
本手法は,最先端のベースラインよりも定性的かつ定量的に歪んだ軌跡を実現する。
論文 参考訳(メタデータ) (2023-04-25T15:53:45Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Decomposed Linear Dynamical Systems (dLDS) for learning the latent
components of neural dynamics [6.829711787905569]
本稿では,時系列データの非定常および非線形の複雑なダイナミクスを表現した新しい分解力学系モデルを提案する。
我々のモデルは辞書学習によって訓練され、最近の結果を利用してスパースベクトルを時間とともに追跡する。
連続時間と離散時間の両方の指導例において、我々のモデルは元のシステムによく近似できることを示した。
論文 参考訳(メタデータ) (2022-06-07T02:25:38Z) - Physics-guided Deep Markov Models for Learning Nonlinear Dynamical
Systems with Uncertainty [6.151348127802708]
我々は物理誘導型Deep Markov Model(PgDMM)という物理誘導型フレームワークを提案する。
提案手法は,動的システムの駆動物理を維持しながら,ディープラーニングの表現力を利用する。
論文 参考訳(メタデータ) (2021-10-16T16:35:12Z) - An Ode to an ODE [78.97367880223254]
我々は、O(d) 群上の行列フローに応じて主フローの時間依存パラメータが進化する ODEtoODE と呼ばれるニューラルODE アルゴリズムの新しいパラダイムを提案する。
この2つの流れのネストされたシステムは、訓練の安定性と有効性を提供し、勾配の消滅・爆発問題を確実に解決する。
論文 参考訳(メタデータ) (2020-06-19T22:05:19Z) - Spherical Motion Dynamics: Learning Dynamics of Neural Network with
Normalization, Weight Decay, and SGD [105.99301967452334]
SMD (Spherical Motion Dynamics) と名付けられた, 正規化, 重崩壊 (WD) , SGD (運動量) を伴うニューラルネットワークの学習力学について述べる。
我々は,ImageNet や MSCOCO など様々なコンピュータビジョンタスクにおける仮定と理論的結果を標準設定で検証する。
論文 参考訳(メタデータ) (2020-06-15T14:16:33Z) - Deep learning of contagion dynamics on complex networks [0.0]
本稿では,ネットワーク上での感染動態の効果的なモデルを構築するために,ディープラーニングに基づく補完的アプローチを提案する。
任意のネットワーク構造をシミュレーションすることで,学習したダイナミックスの性質を学習データを超えて探索することが可能になる。
この結果は,ネットワーク上での感染動態の効果的なモデルを構築するために,ディープラーニングが新たな補完的な視点を提供することを示す。
論文 参考訳(メタデータ) (2020-06-09T17:18:34Z) - Context-aware Dynamics Model for Generalization in Model-Based
Reinforcement Learning [124.9856253431878]
グローバルなダイナミクスモデルを学習するタスクを,(a)ローカルなダイナミクスをキャプチャするコンテキスト潜在ベクトルを学習し,(b)次に条件付き状態を予測するという2つの段階に分割する。
本研究では,コンテキスト潜在ベクトルに動的情報をエンコードするために,コンテキスト潜在ベクトルを前方と後方の両方のダイナミクスを予測するのに役立つような新しい損失関数を導入する。
提案手法は,既存のRL方式と比較して,様々なシミュレーションロボットや制御タスクの一般化能力に優れる。
論文 参考訳(メタデータ) (2020-05-14T08:10:54Z) - Relational State-Space Model for Stochastic Multi-Object Systems [24.234120525358456]
本稿では、逐次階層型潜在変数モデルであるリレーショナル状態空間モデル(R-SSM)を紹介する。
R-SSMはグラフニューラルネットワーク(GNN)を用いて、複数の相関オブジェクトの結合状態遷移をシミュレートする。
R-SSMの実用性は、合成および実時間時系列データセットで実証的に評価される。
論文 参考訳(メタデータ) (2020-01-13T03:45:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。