論文の概要: On the Parameterization and Initialization of Diagonal State Space
Models
- arxiv url: http://arxiv.org/abs/2206.11893v1
- Date: Thu, 23 Jun 2022 17:58:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-24 14:17:46.976641
- Title: On the Parameterization and Initialization of Diagonal State Space
Models
- Title(参考訳): 対角状態空間モデルのパラメータ化と初期化について
- Authors: Albert Gu, Ankit Gupta, Karan Goel, Christopher R\'e
- Abstract要約: 対角状態空間モデルのパラメータ化と初期化について述べる。
S4の行列の対角制限は、無限状態次元の極限において、驚くほど同じカーネルを回復することを示す。
- 参考スコア(独自算出の注目度): 35.68370606343843
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State space models (SSM) have recently been shown to be very effective as a
deep learning layer as a promising alternative to sequence models such as RNNs,
CNNs, or Transformers. The first version to show this potential was the S4
model, which is particularly effective on tasks involving long-range
dependencies by using a prescribed state matrix called the HiPPO matrix. While
this has an interpretable mathematical mechanism for modeling long
dependencies, it introduces a custom representation and algorithm that can be
difficult to implement. On the other hand, a recent variant of S4 called DSS
showed that restricting the state matrix to be fully diagonal can still
preserve the performance of the original model when using a specific
initialization based on approximating S4's matrix. This work seeks to
systematically understand how to parameterize and initialize such diagonal
state space models. While it follows from classical results that almost all
SSMs have an equivalent diagonal form, we show that the initialization is
critical for performance. We explain why DSS works mathematically, by showing
that the diagonal restriction of S4's matrix surprisingly recovers the same
kernel in the limit of infinite state dimension. We also systematically
describe various design choices in parameterizing and computing diagonal SSMs,
and perform a controlled empirical study ablating the effects of these choices.
Our final model S4D is a simple diagonal version of S4 whose kernel computation
requires just 2 lines of code and performs comparably to S4 in almost all
settings, with state-of-the-art results for image, audio, and medical
time-series domains, and averaging 85\% on the Long Range Arena benchmark.
- Abstract(参考訳): 状態空間モデル(SSM)は、最近、RNN、CNN、Transformerといったシーケンスモデルに代わる有望な代替として、ディープラーニング層として非常に効果的であることが示されている。
この可能性を示す最初のバージョンはS4モデルであり、特にHiPPO行列と呼ばれる所定の状態行列を使用することで、長距離依存を含むタスクに有効である。
これは長い依存関係をモデル化するための解釈可能な数学的メカニズムを持っているが、実装が難しいカスタム表現とアルゴリズムを導入している。
一方、DSSと呼ばれる最近のS4の変種は、S4の行列を近似した特定の初期化を使用する場合、状態行列を完全に斜めにする制限が元のモデルの性能を保てることを示した。
この研究は、このような対角状態空間モデルのパラメータ化と初期化の方法を体系的に理解しようとする。
古典的な結果から、ほぼ全てのSSMは対角線形式を持つが、初期化は性能上重要であることを示す。
dssが数学的に働く理由を, s4 行列の対角制限が無限状態次元の極限において, 驚くほど同じ核を回復することを示した。
また,パラメータ化や対角 SSM の計算において,様々な設計選択を体系的に記述し,これらの選択の効果を裏付ける制御実験を行った。
我々の最終モデルであるS4Dは、S4の単純な対角バージョンであり、カーネル計算はたった2行のコードしか必要とせず、ほぼすべての設定でS4と互換性があり、画像、オーディオ、医療時系列ドメインの最先端結果と、Long Range Arenaベンチマークで平均85\%である。
関連論文リスト
- Provable Benefits of Complex Parameterizations for Structured State Space Models [51.90574950170374]
構造化状態空間モデル (Structured State Space Model, SSM) は、指定された構造に固執する線形力学系である。
パラメータ化が現実の典型的なニューラルネットワークモジュールとは対照的に、SSMは複雑なパラメータ化を使用することが多い。
本稿では,実対角 SSM と複素対角 SSM の形式的ギャップを確立することにより,SSM の複雑なパラメータ化の利点を説明する。
論文 参考訳(メタデータ) (2024-10-17T22:35:50Z) - Robustifying State-space Models for Long Sequences via Approximate
Diagonalization [47.321212977509454]
状態空間モデル(SSM)は、長距離シーケンスタスクを学習するためのフレームワークとして登場した。
HiPPOフレームワークの対角化は、それ自体が不適切な問題である。
本稿では,汎用的,後方安定な「摂動対角化(PTD)」手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T23:36:13Z) - Deep Latent State Space Models for Time-Series Generation [68.45746489575032]
状態空間ODEに従って進化する潜伏変数を持つ列の生成モデルLS4を提案する。
近年の深層状態空間モデル(S4)に着想を得て,LS4の畳み込み表現を利用して高速化を実現する。
LS4は, 実世界のデータセット上での限界分布, 分類, 予測スコアにおいて, 従来の連続時間生成モデルよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-24T15:17:42Z) - Liquid Structural State-Space Models [106.74783377913433]
Liquid-S4はLong-Range Arenaベンチマークで平均87.32%の性能を達成した。
全生音声コマンド認識では、データセットLiquid-S4は96.78%の精度で、S4と比較してパラメータ数が30%減少している。
論文 参考訳(メタデータ) (2022-09-26T18:37:13Z) - Long Range Language Modeling via Gated State Spaces [67.64091993846269]
本稿では,英語書籍,Githubソースコード,ArXiv数学論文の自己回帰シーケンスモデリングに焦点をあてる。
Gated State Space (GSS) と呼ばれる新しい層を提案し、S4の対角線よりもかなり高速に訓練可能であることを示す。
論文 参考訳(メタデータ) (2022-06-27T01:50:18Z) - How to Train Your HiPPO: State Space Models with Generalized Orthogonal
Basis Projections [22.421814045703147]
線形時間不変状態空間モデル(SSM)は機械学習において非常に有望であることが示されている。
理論的にリッチなSSMのクラスを導入し、他のベースに対してより直感的なS4変種を導出できるようにします。
これらの洞察により、S4のパフォーマンスはLong Range Arenaベンチマークで86%、最も難しいPath-Xタスクで96%向上した。
論文 参考訳(メタデータ) (2022-06-24T02:24:41Z) - Diagonal State Spaces are as Effective as Structured State Spaces [3.8276199743296906]
音声コマンドのデータセット上での音声分類は、概念的にシンプルで実装が容易でありながら、Long Range Arenaタスク上でのS4のパフォーマンスと一致することを示す。
本研究は,低ランク補正を伴わずともS4の性能に一致できることを示し,状態行列を対角線と仮定する。
論文 参考訳(メタデータ) (2022-03-27T16:30:33Z) - Efficiently Modeling Long Sequences with Structured State Spaces [15.456254157293836]
本稿では,基本状態空間モデルに対する新しいパラメータ化に基づく新しいシーケンスモデルを提案する。
S4は、(i)データ拡張や補助損失を伴わないシーケンシャルCIFAR-10での91%の精度を含む、より大規模な2次元ResNetと同等の、さまざまな確立されたベンチマークで強力な実験結果を得る。
論文 参考訳(メタデータ) (2021-10-31T03:32:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。