論文の概要: Memory Determines Learning Direction: A Theory of Gradient-Based Optimization in State Space Models
- arxiv url: http://arxiv.org/abs/2510.00563v1
- Date: Wed, 01 Oct 2025 06:30:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.418659
- Title: Memory Determines Learning Direction: A Theory of Gradient-Based Optimization in State Space Models
- Title(参考訳): 学習方向の記憶決定:状態空間モデルにおける勾配に基づく最適化の理論
- Authors: JingChuan Guan, Tomoyuki Kubota, Yasuo Kuniyoshi, Kohei Nakajima,
- Abstract要約: 状態空間モデル(SSM)はトランスフォーマーを上回る可能性を示すことで注目を集めている。
本研究では,このような説明を行い,改良されたトレーニング戦略を提案する。
- 参考スコア(独自算出の注目度): 2.6599014990168834
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State space models (SSMs) have gained attention by showing potential to outperform Transformers. However, previous studies have not sufficiently addressed the mechanisms underlying their high performance owing to a lack of theoretical explanation of SSMs' learning dynamics. In this study, we provide such an explanation and propose an improved training strategy. The memory capacity of SSMs can be evaluated by examining how input time series are stored in their current state. Such an examination reveals a tradeoff between memory accuracy and length, as well as the theoretical equivalence between the structured state space sequence model (S4) and a simplified S4 with diagonal recurrent weights. This theoretical foundation allows us to elucidate the learning dynamics, proving the importance of initial parameters. Our analytical results suggest that successful learning requires the initial memory structure to be the longest possible even if memory accuracy may deteriorate or the gradient lose the teacher information. Experiments on tasks requiring long memory confirmed that extending memory is difficult, emphasizing the importance of initialization. Furthermore, we found that fixing recurrent weights can be more advantageous than adapting them because it achieves comparable or even higher performance with faster convergence. Our results provide a new theoretical foundation for SSMs and potentially offer a novel optimization strategy.
- Abstract(参考訳): 状態空間モデル(SSM)はトランスフォーマーを上回る可能性を示すことで注目を集めている。
しかし、従来の研究では、SSMの学習力学に関する理論的説明の欠如により、その高性能化のメカニズムを十分に解決していない。
本研究では,このような説明を行い,改良されたトレーニング戦略を提案する。
SSMのメモリ容量は、入力時系列が現在の状態にどのように格納されているかを調べることで評価することができる。
このような検査は、メモリ精度と長さのトレードオフと、構造された状態空間列モデル(S4)と、対角方向のリカレント重みを持つ単純化されたS4との理論的等価性を明らかにする。
この理論的基盤は、学習力学を解明し、初期パラメータの重要性を証明します。
分析結果から,学習に成功するためには,記憶精度が低下したり,勾配が教師情報を失う場合であっても,初期記憶構造を可能な限り長くする必要があることが示唆された。
長期記憶を必要とするタスクの実験では、メモリ拡張が困難であることが確認され、初期化の重要性を強調した。
さらに、再帰重み付けは、より高速な収束で同等またはそれ以上の性能を達成するため、それらを適用するよりも有利であることが判明した。
この結果は,SSMの新たな理論的基盤を提供し,新たな最適化戦略を提供する可能性がある。
関連論文リスト
- Emergence of the Primacy Effect in Structured State-Space Models [0.35534933448684125]
構造化状態空間モデル(SSM)は、従来のリカレントニューラルネットワークよりも永続的なメモリ保持を提供するために開発された。
標準SSMの記憶機構は理論上、時間とともに単調に崩壊するように設計されている。
本研究は,合成的,統計的にバランスの取れた記憶タスクを訓練し,評価すると,SSMは*初期*で提示されたデータを主に記憶に保存する。
論文 参考訳(メタデータ) (2025-02-19T13:55:32Z) - Forget Forgetting: Continual Learning in a World of Abundant Memory [55.64184779530581]
継続的な学習は伝統的に、模範記憶の最小化に重点を置いてきた。
本稿では、より現実的な体制を探求することによって、このパラダイムに挑戦する。
モデルが以前のタスクに偏り、新しいタスクを学ぶのに苦労するようになるにつれて、中心的な課題が安定性から可塑性へと変化していくことが分かっています。
論文 参考訳(メタデータ) (2025-02-11T05:40:52Z) - Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning [64.93848182403116]
現在のディープラーニングメモリモデルは、部分的に観察可能で長期にわたる強化学習環境で苦労している。
本稿では,強化学習エージェントのための新しい記憶モデルであるStable Hadamard Memoryを紹介する。
我々の手法は、部分的に観測可能なベンチマークに挑戦する上で、最先端のメモリベースの手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-10-14T03:50:17Z) - Mathematical Formalism for Memory Compression in Selective State Space Models [0.0]
状態空間モデル(SSM)は、シーケンスデータの長距離依存性をモデル化するための強力なフレームワークとして登場した。
我々は、選択状態空間モデルにおけるメモリ圧縮を理解するための厳密な数学的枠組みを開発する。
選択型SSMは従来のRNNモデルと比較してメモリ効率と処理速度を大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-10-04T05:45:48Z) - Fine-Grained Gradient Restriction: A Simple Approach for Mitigating Catastrophic Forgetting [41.891312602770746]
Gradient Episodic Memory (GEM) は、過去のトレーニングサンプルのサブセットを利用して、モデルのパラメータの更新方向を制限することでバランスをとる。
メモリの強度は、主にGEMの能力を一般化し、それによってより有利なトレードオフをもたらすため、有効であることを示す。
論文 参考訳(メタデータ) (2024-10-01T17:03:56Z) - HOPE for a Robust Parameterization of Long-memory State Space Models [51.66430224089725]
線形時間不変(LTI)システムを利用する状態空間モデル(SSM)は、長いシーケンスの学習において有効であることが知られている。
我々は,ハンケル作用素内のマルコフパラメータを利用するLTIシステムに対して,HOPEと呼ばれる新しいパラメータ化手法を開発した。
我々の新しいパラメータ化は、固定時間ウィンドウ内に非遅延メモリを付与し、パッドドノイズのあるシーケンシャルCIFAR-10タスクによって実証的に相関する。
論文 参考訳(メタデータ) (2024-05-22T20:20:14Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - Sequential Memory with Temporal Predictive Coding [6.228559238589584]
時空間予測符号化 (tPC) という, PC を用いた時空間メモリモデルを提案する。
我々のtPCモデルは、生物学的に妥当なニューラル実装を用いて、シーケンシャルな入力を正確に記憶し、取得できることを示します。
論文 参考訳(メタデータ) (2023-05-19T20:03:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。