論文の概要: Theoretical Foundations of Deep Selective State-Space Models
- arxiv url: http://arxiv.org/abs/2402.19047v1
- Date: Thu, 29 Feb 2024 11:20:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 15:14:19.459173
- Title: Theoretical Foundations of Deep Selective State-Space Models
- Title(参考訳): 深部選択状態空間モデルの理論基礎
- Authors: Nicola Muca Cirone, Antonio Orvieto, Benjamin Walker, Cristopher Salvi
and Terry Lyons
- Abstract要約: ディープSSMは、さまざまなドメインセットで優れたパフォーマンスを示す。
最近の研究で、線形リカレンス電力が入力と隠れ状態の間の乗法的相互作用を可能にすることが示されている。
ランダム線形再帰が単純な入力制御遷移を備える場合、隠れ状態は強力な数学的対象の低次元射影であることを示す。
- 参考スコア(独自算出の注目度): 14.989266348816749
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Structured state-space models (SSMs) such as S4, stemming from the seminal
work of Gu et al., are gaining popularity as effective approaches for modeling
sequential data. Deep SSMs demonstrate outstanding performance across a diverse
set of domains, at a reduced training and inference cost compared to
attention-based transformers. Recent developments show that if the linear
recurrence powering SSMs allows for multiplicative interactions between inputs
and hidden states (e.g. GateLoop, Mamba, GLA), then the resulting architecture
can surpass in both in accuracy and efficiency attention-powered foundation
models trained on text, at scales of billion parameters. In this paper, we give
theoretical grounding to this recent finding using tools from Rough Path
Theory: we show that when random linear recurrences are equipped with simple
input-controlled transitions (selectivity mechanism), then the hidden state is
provably a low-dimensional projection of a powerful mathematical object called
the signature of the input -- capturing non-linear interactions between tokens
at distinct timescales. Our theory not only motivates the success of modern
selective state-space models such as Mamba but also provides a solid framework
to understand the expressive power of future SSM variants.
- Abstract(参考訳): S4のような構造化状態空間モデル (Structured state-space model, SSMs) は、Guらの研究から生まれたものであり、シーケンシャルデータモデリングの効果的なアプローチとして人気を集めている。
深部SSMは、アテンションベースのトランスフォーマーと比較してトレーニングと推論のコストを低減し、様々な領域で優れた性能を示す。
近年の進歩は、線形リカレンスを動力とするSSMが入力と隠された状態(例えばGateLoop、Mamba、GLA)間の乗法的相互作用を可能とすれば、結果のアーキテクチャはテキスト上で訓練された数十億のパラメータのスケールで精度と効率性の両方を上回りうることを示している。
本稿では、Rough Path Theoryのツールを用いた最近の理論的な根拠として、ランダムな線形反復が単純な入力制御遷移(選択機構)を備えている場合、隠れた状態は、入力のシグネチャと呼ばれる強力な数学的対象の低次元射影であり、異なる時間スケールでトークン間の非線形相互作用をキャプチャすることを示す。
我々の理論は、マンバのような現代の選択的状態空間モデルの成功を動機づけるだけでなく、将来のSSMの表現力を理解するための確かな枠組みも提供する。
関連論文リスト
- Recursive Learning of Asymptotic Variational Objectives [49.69399307452126]
一般状態空間モデル(英: General State-space Model, SSM)は、統計機械学習において広く用いられ、時系列データに対して最も古典的な生成モデルの一つである。
オンラインシーケンシャルIWAE(OSIWAE)は、潜在状態の推測のためのモデルパラメータとマルコフ認識モデルの両方のオンライン学習を可能にする。
このアプローチは、最近提案されたオンライン変分SMC法よりも理論的によく確立されている。
論文 参考訳(メタデータ) (2024-11-04T16:12:37Z) - START: A Generalized State Space Model with Saliency-Driven Token-Aware Transformation [27.301312891532277]
ドメイン一般化(Domain Generalization, DG)は、複数のソースドメインから学習することで、モデルが対象ドメインを見えないように一般化できるようにすることを目的としている。
本稿では,最新技術(SOTA)のパフォーマンスを達成し,CNNやViTと競合する代替手段を提供するSTARTを提案する。
我々のSTARTは、SSMの入力依存行列内の有意なトークンのドメイン固有の特徴を選択的に摂動し、抑制することができるため、異なるドメイン間の差異を効果的に低減できる。
論文 参考訳(メタデータ) (2024-10-21T13:50:32Z) - Mathematical Formalism for Memory Compression in Selective State Space Models [0.0]
状態空間モデル(SSM)は、シーケンスデータの長距離依存性をモデル化するための強力なフレームワークとして登場した。
我々は、選択状態空間モデルにおけるメモリ圧縮を理解するための厳密な数学的枠組みを開発する。
選択型SSMは従来のRNNモデルと比較してメモリ効率と処理速度を大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-10-04T05:45:48Z) - Decision Mamba: A Multi-Grained State Space Model with Self-Evolution Regularization for Offline RL [57.202733701029594]
決定マンバ(Decision Mamba)は、自己進化的な政策学習戦略を持つ、新しい多粒状態空間モデルである。
雑音性軌道上における過度に適合する問題を緩和するために,進行正則化を用いて自己進化政策を提案する。
この政策は、自身の過去の知識を用いて、準最適動作を洗練させ、ノイズの多い実演における堅牢性を高めることで進化する。
論文 参考訳(メタデータ) (2024-06-08T10:12:00Z) - The Expressive Capacity of State Space Models: A Formal Language Perspective [0.8948475969696075]
線形状態空間モデル(SSM)に基づくリカレントモデルは、言語モデリング(LM)において有望な性能を示した。
本稿では,変換器や従来のRNNと比較して,そのようなSSMの容量に関する包括的理論的研究を行う。
論文 参考訳(メタデータ) (2024-05-27T17:46:57Z) - Spatiotemporal Implicit Neural Representation as a Generalized Traffic Data Learner [46.866240648471894]
時空間交通データ(STTD)は、マルチスケール交通システムの複雑な動的挙動を測定する。
本稿では,STTDを暗黙的ニューラル表現としてパラメータ化することで,STTD学習問題に対処する新しいパラダイムを提案する。
実世界のシナリオにおける広範な実験を通じて,その有効性を検証し,廊下からネットワークスケールへの応用を示す。
論文 参考訳(メタデータ) (2024-05-06T06:23:06Z) - Synthetic location trajectory generation using categorical diffusion
models [50.809683239937584]
拡散モデル(DPM)は急速に進化し、合成データのシミュレーションにおける主要な生成モデルの一つとなっている。
本稿では,個人が訪れた物理的位置を表す変数列である合成個別位置軌跡(ILT)の生成にDPMを用いることを提案する。
論文 参考訳(メタデータ) (2024-02-19T15:57:39Z) - Sparse Modular Activation for Efficient Sequence Modeling [94.11125833685583]
線形状態空間モデルと自己アテンション機構を組み合わせた最近のモデルでは、様々なシーケンスモデリングタスクにおいて顕著な結果が示されている。
現在のアプローチでは、アテンションモジュールを静的かつ均一に入力シーケンスのすべての要素に適用し、最適以下の品質効率のトレードオフをもたらす。
SMA(Sparse Modular Activation)は,ニューラルネットワークが配列要素のサブモジュールを異なる方法でスパースに活性化する機構である。
論文 参考訳(メタデータ) (2023-06-19T23:10:02Z) - STMT: A Spatial-Temporal Mesh Transformer for MoCap-Based Action Recognition [50.064502884594376]
本研究では、モーションキャプチャー(MoCap)シーケンスを用いた人間の行動認識の問題点について検討する。
メッシュシーケンスを直接モデル化する新しい時空間メッシュ変換器(STMT)を提案する。
提案手法は,スケルトンベースモデルやポイントクラウドベースモデルと比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-31T16:19:27Z) - GEM: Group Enhanced Model for Learning Dynamical Control Systems [78.56159072162103]
サンプルベースの学習が可能な効果的なダイナミクスモデルを構築します。
リー代数ベクトル空間上のダイナミクスの学習は、直接状態遷移モデルを学ぶよりも効果的であることを示す。
この研究は、ダイナミクスの学習とリー群の性質の関連性を明らかにし、新たな研究の方向への扉を開く。
論文 参考訳(メタデータ) (2021-04-07T01:08:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。