論文の概要: Theoretical Foundations of Deep Selective State-Space Models
- arxiv url: http://arxiv.org/abs/2402.19047v2
- Date: Mon, 4 Mar 2024 11:09:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 21:58:00.418805
- Title: Theoretical Foundations of Deep Selective State-Space Models
- Title(参考訳): 深部選択状態空間モデルの理論基礎
- Authors: Nicola Muca Cirone, Antonio Orvieto, Benjamin Walker, Cristopher Salvi
and Terry Lyons
- Abstract要約: ディープSSMは、さまざまなドメインセットで優れたパフォーマンスを示す。
最近の研究で、線形リカレンス電力が入力と隠れ状態の間の乗法的相互作用を可能にすることが示されている。
ランダム線形再帰が単純な入力制御遷移を備える場合、隠れ状態は強力な数学的対象の低次元射影であることを示す。
- 参考スコア(独自算出の注目度): 14.989266348816749
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Structured state-space models (SSMs) such as S4, stemming from the seminal
work of Gu et al., are gaining popularity as effective approaches for modeling
sequential data. Deep SSMs demonstrate outstanding performance across a diverse
set of domains, at a reduced training and inference cost compared to
attention-based transformers. Recent developments show that if the linear
recurrence powering SSMs allows for multiplicative interactions between inputs
and hidden states (e.g. GateLoop, Mamba, GLA), then the resulting architecture
can surpass in both in accuracy and efficiency attention-powered foundation
models trained on text, at scales of billion parameters. In this paper, we give
theoretical grounding to this recent finding using tools from Rough Path
Theory: we show that when random linear recurrences are equipped with simple
input-controlled transitions (selectivity mechanism), then the hidden state is
provably a low-dimensional projection of a powerful mathematical object called
the signature of the input -- capturing non-linear interactions between tokens
at distinct timescales. Our theory not only motivates the success of modern
selective state-space models such as Mamba but also provides a solid framework
to understand the expressive power of future SSM variants.
- Abstract(参考訳): S4のような構造化状態空間モデル (Structured state-space model, SSMs) は、Guらの研究から生まれたものであり、シーケンシャルデータモデリングの効果的なアプローチとして人気を集めている。
深部SSMは、アテンションベースのトランスフォーマーと比較してトレーニングと推論のコストを低減し、様々な領域で優れた性能を示す。
近年の進歩は、線形リカレンスを動力とするSSMが入力と隠された状態(例えばGateLoop、Mamba、GLA)間の乗法的相互作用を可能とすれば、結果のアーキテクチャはテキスト上で訓練された数十億のパラメータのスケールで精度と効率性の両方を上回りうることを示している。
本稿では、Rough Path Theoryのツールを用いた最近の理論的な根拠として、ランダムな線形反復が単純な入力制御遷移(選択機構)を備えている場合、隠れた状態は、入力のシグネチャと呼ばれる強力な数学的対象の低次元射影であり、異なる時間スケールでトークン間の非線形相互作用をキャプチャすることを示す。
我々の理論は、マンバのような現代の選択的状態空間モデルの成功を動機づけるだけでなく、将来のSSMの表現力を理解するための確かな枠組みも提供する。
関連論文リスト
- Synthetic location trajectory generation using categorical diffusion
models [50.809683239937584]
拡散モデル(DPM)は急速に進化し、合成データのシミュレーションにおける主要な生成モデルの一つとなっている。
本稿では,個人が訪れた物理的位置を表す変数列である合成個別位置軌跡(ILT)の生成にDPMを用いることを提案する。
論文 参考訳(メタデータ) (2024-02-19T15:57:39Z) - Online Variational Sequential Monte Carlo [56.16884466478886]
我々は,計算効率が高く正確なモデルパラメータ推定とベイジアン潜在状態推定を提供する変分連続モンテカルロ法(VSMC)を構築した。
オンラインVSMCは、パラメータ推定と粒子提案適応の両方を効率よく、完全にオンザフライで実行することができる。
論文 参考訳(メタデータ) (2023-12-19T21:45:38Z) - Generative Modeling with Phase Stochastic Bridges [52.919600985186996]
拡散モデル(DM)は、連続入力のための最先端の生成モデルを表す。
我々はtextbfphase space dynamics に基づく新しい生成モデリングフレームワークを提案する。
我々のフレームワークは、動的伝播の初期段階において、現実的なデータポイントを生成する能力を示す。
論文 参考訳(メタデータ) (2023-10-11T18:38:28Z) - Sparse Modular Activation for Efficient Sequence Modeling [94.11125833685583]
線形状態空間モデルと自己アテンション機構を組み合わせた最近のモデルでは、様々なシーケンスモデリングタスクにおいて顕著な結果が示されている。
現在のアプローチでは、アテンションモジュールを静的かつ均一に入力シーケンスのすべての要素に適用し、最適以下の品質効率のトレードオフをもたらす。
SMA(Sparse Modular Activation)は,ニューラルネットワークが配列要素のサブモジュールを異なる方法でスパースに活性化する機構である。
論文 参考訳(メタデータ) (2023-06-19T23:10:02Z) - STMT: A Spatial-Temporal Mesh Transformer for MoCap-Based Action
Recognition [66.96931254510544]
本研究では、モーションキャプチャー(MoCap)シーケンスを用いた人間の行動認識の問題点について検討する。
メッシュシーケンスを直接モデル化する新しい時空間メッシュ変換器(STMT)を提案する。
提案手法は,スケルトンベースモデルやポイントクラウドベースモデルと比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-31T16:19:27Z) - Hidden Parameter Recurrent State Space Models For Changing Dynamics
Scenarios [18.08665164701404]
リカレントステートスペースモデルは、動的が固定され、変化しないと仮定するが、これは現実のシナリオではめったにない。
隠れ再帰状態空間モデル(Hidden Recurrent State Space Models, HiP-RSSMs)は, 低次元の潜伏因子の集合で関連する力学系のファミリーをパラメータ化するフレームワークである。
HiP-RSSMsは、実世界のシステムとシミュレーションの両方において、いくつかの挑戦的なロボットベンチマークにおいて、RSSMsや競合するマルチタスクモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-29T14:54:49Z) - GEM: Group Enhanced Model for Learning Dynamical Control Systems [78.56159072162103]
サンプルベースの学習が可能な効果的なダイナミクスモデルを構築します。
リー代数ベクトル空間上のダイナミクスの学習は、直接状態遷移モデルを学ぶよりも効果的であることを示す。
この研究は、ダイナミクスの学習とリー群の性質の関連性を明らかにし、新たな研究の方向への扉を開く。
論文 参考訳(メタデータ) (2021-04-07T01:08:18Z) - Controlled Gaussian Process Dynamical Models with Application to Robotic
Cloth Manipulation [10.04778213256535]
我々は高次元非線形力学学習のための制御ガウス過程力学モデル(CGPDM)を提案する。
CGPDMは低次元の潜在空間で構成され、外部制御変数が作用できる関連するダイナミクスを持つ。
幅広い動作を一般化し、これまで目に見えない一連の制御動作によって得られた布の動きを確実に予測することができる。
論文 参考訳(メタデータ) (2021-03-11T11:34:12Z) - Deep Learning modeling of Limit Order Book: a comparative perspective [0.0]
本研究は、高周波取引のためのディープラーニング分野における理論的および実践的な問題に対処する。
ランダムモデル、ロジスティック回帰、LSTM、アテンションマスクを備えたLSTM、CNN-LSTM、アテンションなどの最先端モデルについてレビューし、同じタスクで比較する。
モデリング手法の根底にある次元は、リミット・オーダー・ブックの力学に固有のものかどうかを理解するために研究される。
論文 参考訳(メタデータ) (2020-07-12T17:06:30Z) - A Convolutional Deep Markov Model for Unsupervised Speech Representation
Learning [32.59760685342343]
確率的潜在変数モデルは、音声からの言語表現学習のための自己教師付き学習アプローチの代替を提供する。
本研究では,深いニューラルネットワークによってモデル化された非線形放出と遷移関数を持つガウス状態空間モデルであるConvDMMを提案する。
大規模音声データセット(LibriSpeech)で訓練すると、ConvDMMは複数の自己教師付き特徴抽出法よりもはるかに優れた特徴を生成する。
論文 参考訳(メタデータ) (2020-06-03T21:50:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。