論文の概要: SMR: State Memory Replay for Long Sequence Modeling
- arxiv url: http://arxiv.org/abs/2405.17534v1
- Date: Mon, 27 May 2024 17:53:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 23:40:54.872618
- Title: SMR: State Memory Replay for Long Sequence Modeling
- Title(参考訳): SMR:ロングシーケンスモデリングのためのステートメモリリプレイ
- Authors: Biqing Qi, Junqi Gao, Kaiyan Zhang, Dong Li, Jianxing Liu, Ligang Wu, Bowen Zhou,
- Abstract要約: 本稿では並列畳み込み計算における互換性の限界を克服する新しい非再帰的非一様サンプル処理戦略を提案する。
本研究では,学習可能な記憶を利用する状態記憶再生(SMR)を導入し,学習データと異なるサンプリングポイントでの一般化のために,現在の状態を多段階情報で調整する。
自己回帰言語モデリングとLong Range Arenaにおける長距離モデリングタスクの実験は、一連のSSMモデルに対するSMRメカニズムの一般的な効果を実証している。
- 参考スコア(独自算出の注目度): 19.755738298836526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the promising performance of state space models (SSMs) in long sequence modeling, limitations still exist. Advanced SSMs like S5 and S6 (Mamba) in addressing non-uniform sampling, their recursive structures impede efficient SSM computation via convolution. To overcome compatibility limitations in parallel convolutional computation, this paper proposes a novel non-recursive non-uniform sample processing strategy. Theoretical analysis of SSMs through the lens of Event-Triggered Control (ETC) theory reveals the Non-Stable State (NSS) problem, where deviations from sampling point requirements lead to error transmission and accumulation, causing the divergence of the SSM's hidden state. Our analysis further reveals that adjustments of input sequences with early memories can mitigate the NSS problem, achieving Sampling Step Adaptation (SSA). Building on this insight, we introduce a simple yet effective plug-and-play mechanism, State Memory Replay (SMR), which utilizes learnable memories to adjust the current state with multi-step information for generalization at sampling points different from those in the training data. This enables SSMs to stably model varying sampling points. Experiments on long-range modeling tasks in autoregressive language modeling and Long Range Arena demonstrate the general effectiveness of the SMR mechanism for a series of SSM models.
- Abstract(参考訳): 長いシーケンスモデリングにおける状態空間モデル(SSM)の有望な性能にもかかわらず、制限は今も残っている。
S5やS6(Mamba)のような高度なSSMは、一様でないサンプリングに対処し、再帰的な構造は畳み込みによる効率的なSSM計算を妨げる。
本稿では,並列畳み込み計算における互換性の限界を克服するために,新しい非再帰的非一様サンプル処理戦略を提案する。
イベントトリガード制御(ETC)理論のレンズによるSSMの理論解析は、サンプリングポイント要求からの逸脱がエラーの伝達と蓄積を引き起こす非安定状態(NSS)問題を明らかにし、SSMの隠れ状態のばらつきを引き起こす。
さらに、初期記憶による入力シーケンスの調整により、サンプリングステップ適応(SSA)を達成し、NAS問題を緩和できることを明らかにした。
この知見に基づいて、学習可能な記憶を利用して、学習データとは異なるサンプリングポイントでの一般化のための多段階情報を用いて現在の状態を調整できる、シンプルで効果的なプラグアンドプレイ機構であるState Memory Replay(SMR)を導入する。
これにより、SSMは安定して様々なサンプリングポイントをモデル化できる。
自己回帰言語モデリングとLong Range Arenaにおける長距離モデリングタスクの実験は、一連のSSMモデルに対するSMRメカニズムの一般的な効果を実証している。
関連論文リスト
- Longhorn: State Space Models are Amortized Online Learners [51.10124201221601]
本稿では,オンライン回帰目標を最適化するための暗黙の更新に基づく新しい深層SSMアーキテクチャを提案する。
実験の結果,我々のモデルは,標準シーケンスモデリングベンチマークや言語モデリングタスクにおいて,最先端のSSMよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-07-19T11:12:08Z) - The Expressive Capacity of State Space Models: A Formal Language Perspective [0.8948475969696075]
線形状態空間モデル(SSM)に基づくリカレントモデルは、言語モデリング(LM)において有望な性能を示した。
本稿では,変換器や従来のRNNと比較して,そのようなSSMの容量に関する包括的理論的研究を行う。
論文 参考訳(メタデータ) (2024-05-27T17:46:57Z) - Time-SSM: Simplifying and Unifying State Space Models for Time Series Forecasting [22.84798547604491]
状態空間モデル(SSM)は、基底関数の集合を用いて連続系を近似し、それらを離散化して入力データを処理する。
本稿では,SSMを時系列データに適用するためのより直感的で汎用的なガイダンスを提供する,動的スペクトル演算子(Dynamic Spectral Operator)と呼ばれる新しい理論フレームワークを提案する。
パラメータの7分の1しか持たない新しいSSM基盤モデルであるTime-SSMを紹介する。
論文 参考訳(メタデータ) (2024-05-25T17:42:40Z) - There is HOPE to Avoid HiPPOs for Long-memory State Space Models [51.66430224089725]
線形時間不変(LTI)システムを利用する状態空間モデル(SSM)は、長いシーケンスの学習において有効であることが知られている。
我々は,ハンケル作用素内のパラメータを利用するLTIシステムに対して,HOPEと呼ばれる新しいパラメータ化手法を開発した。
我々のモデルは、LTIシステムの転送関数を一様にサンプリングすることで、これらの革新を効率的に実装する。
論文 参考訳(メタデータ) (2024-05-22T20:20:14Z) - Theoretical Foundations of Deep Selective State-Space Models [14.989266348816749]
ディープSSMは、さまざまなドメインセットで優れたパフォーマンスを示す。
最近の研究で、線形リカレンス電力が入力と隠れ状態の間の乗法的相互作用を可能にすることが示されている。
ランダム線形再帰が単純な入力制御遷移を備える場合、隠れ状態は強力な数学的対象の低次元射影であることを示す。
論文 参考訳(メタデータ) (2024-02-29T11:20:16Z) - Synthetic location trajectory generation using categorical diffusion
models [50.809683239937584]
拡散モデル(DPM)は急速に進化し、合成データのシミュレーションにおける主要な生成モデルの一つとなっている。
本稿では,個人が訪れた物理的位置を表す変数列である合成個別位置軌跡(ILT)の生成にDPMを用いることを提案する。
論文 参考訳(メタデータ) (2024-02-19T15:57:39Z) - Online Variational Sequential Monte Carlo [49.97673761305336]
我々は,計算効率が高く正確なモデルパラメータ推定とベイジアン潜在状態推定を提供する変分連続モンテカルロ法(VSMC)を構築した。
オンラインVSMCは、パラメータ推定と粒子提案適応の両方を効率よく、完全にオンザフライで実行することができる。
論文 参考訳(メタデータ) (2023-12-19T21:45:38Z) - Convolutional State Space Models for Long-Range Spatiotemporal Modeling [65.0993000439043]
ConvS5は、長距離時間モデリングのための効率的な変種である。
トランスフォーマーとConvNISTTMは、長い水平移動実験において、ConvLSTMより3倍速く、トランスフォーマーより400倍速くサンプルを生成する一方で、大幅に性能が向上した。
論文 参考訳(メタデータ) (2023-10-30T16:11:06Z) - Understanding Self-attention Mechanism via Dynamical System Perspective [58.024376086269015]
SAM(Self-attention mechanism)は、人工知能の様々な分野で広く使われている。
常微分方程式(ODE)の高精度解における固有剛性現象(SP)は,高性能ニューラルネットワーク(NN)にも広く存在することを示す。
SAMは、本質的なSPを測定するためのモデルの表現能力を高めることができる剛性対応のステップサイズ適応器でもあることを示す。
論文 参考訳(メタデータ) (2023-08-19T08:17:41Z) - Hidden Parameter Recurrent State Space Models For Changing Dynamics
Scenarios [18.08665164701404]
リカレントステートスペースモデルは、動的が固定され、変化しないと仮定するが、これは現実のシナリオではめったにない。
隠れ再帰状態空間モデル(Hidden Recurrent State Space Models, HiP-RSSMs)は, 低次元の潜伏因子の集合で関連する力学系のファミリーをパラメータ化するフレームワークである。
HiP-RSSMsは、実世界のシステムとシミュレーションの両方において、いくつかの挑戦的なロボットベンチマークにおいて、RSSMsや競合するマルチタスクモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-29T14:54:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。