論文の概要: Robustifying State-space Models for Long Sequences via Approximate
Diagonalization
- arxiv url: http://arxiv.org/abs/2310.01698v1
- Date: Mon, 2 Oct 2023 23:36:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 18:16:21.065205
- Title: Robustifying State-space Models for Long Sequences via Approximate
Diagonalization
- Title(参考訳): 近似対角化による長い列のロバスト化状態空間モデル
- Authors: Annan Yu, Arnur Nigmetov, Dmitriy Morozov, Michael W. Mahoney and N.
Benjamin Erichson
- Abstract要約: 状態空間モデル(SSM)は、長距離シーケンスタスクを学習するためのフレームワークとして登場した。
HiPPOフレームワークの対角化は、それ自体が不適切な問題である。
本稿では,汎用的,後方安定な「摂動対角化(PTD)」手法を提案する。
- 参考スコア(独自算出の注目度): 47.321212977509454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-space models (SSMs) have recently emerged as a framework for learning
long-range sequence tasks. An example is the structured state-space sequence
(S4) layer, which uses the diagonal-plus-low-rank structure of the HiPPO
initialization framework. However, the complicated structure of the S4 layer
poses challenges; and, in an effort to address these challenges, models such as
S4D and S5 have considered a purely diagonal structure. This choice simplifies
the implementation, improves computational efficiency, and allows channel
communication. However, diagonalizing the HiPPO framework is itself an
ill-posed problem. In this paper, we propose a general solution for this and
related ill-posed diagonalization problems in machine learning. We introduce a
generic, backward-stable "perturb-then-diagonalize" (PTD) methodology, which is
based on the pseudospectral theory of non-normal operators, and which may be
interpreted as the approximate diagonalization of the non-normal matrices
defining SSMs. Based on this, we introduce the S4-PTD and S5-PTD models.
Through theoretical analysis of the transfer functions of different
initialization schemes, we demonstrate that the S4-PTD/S5-PTD initialization
strongly converges to the HiPPO framework, while the S4D/S5 initialization only
achieves weak convergences. As a result, our new models show resilience to
Fourier-mode noise-perturbed inputs, a crucial property not achieved by the
S4D/S5 models. In addition to improved robustness, our S5-PTD model averages
87.6% accuracy on the Long-Range Arena benchmark, demonstrating that the PTD
methodology helps to improve the accuracy of deep learning models.
- Abstract(参考訳): 状態空間モデル(ssms)は最近、長距離シーケンスタスクを学習するためのフレームワークとして登場した。
例えば、HiPPO初期化フレームワークの対角+低ランク構造を用いる構造化状態空間シーケンス(S4)層がある。
しかし、S4層の複雑な構造は課題を生じさせ、これらの課題に対処するためにS4DやS5のようなモデルは純粋に対角構造と見なされている。
この選択は実装を単純化し、計算効率を改善し、チャネル通信を可能にする。
しかし、HiPPOフレームワークの対角化はそれ自体が誤った問題である。
本稿では,機械学習における不適切な対角化問題に対する一般的な解法を提案する。
我々は、非正規作用素の擬スペクトル理論に基づいて、ssmを定義する非正規行列の近似対角化として解釈される、ジェネリックで後方安定な "perturb-then-diagonalize" (ptd) 方法論を導入する。
そこで本研究では,S4-PTDモデルとS5-PTDモデルを紹介する。
異なる初期化スキームの伝達関数の理論的解析を通じて、S4-PTD/S5-PTD初期化はHiPPOフレームワークに強く収束し、S4D/S5初期化は弱い収束しか達成しないことを示した。
その結果, s4d/s5 モデルでは実現できない特性であるフーリエモードノイズ摂動入力に対するレジリエンスが得られた。
堅牢性の改善に加えて、我々のS5-PTDモデルはLong-Range Arenaベンチマークで平均87.6%の精度を示し、PTD手法がディープラーニングモデルの精度向上に役立つことを示した。
関連論文リスト
- HOPE for a Robust Parameterization of Long-memory State Space Models [51.66430224089725]
線形時間不変(LTI)システムを利用する状態空間モデル(SSM)は、長いシーケンスの学習において有効であることが知られている。
我々は,ハンケル作用素内のマルコフパラメータを利用するLTIシステムに対して,HOPEと呼ばれる新しいパラメータ化手法を開発した。
我々の新しいパラメータ化は、固定時間ウィンドウ内に非遅延メモリを付与し、パッドドノイズのあるシーケンシャルCIFAR-10タスクによって実証的に相関する。
論文 参考訳(メタデータ) (2024-05-22T20:20:14Z) - Model Compression Method for S4 with Diagonal State Space Layers using Balanced Truncation [0.0]
本稿では, モデル圧縮手法として, 事前学習したS4モデルのDSS層に適用した, 制御理論における一般的なモデル縮小手法であるバランストランケーションを提案する。
数値実験により,従来のSkiw-HiPPOを用いたモデルよりも,トレーニングモデルとバランスの取れたトランケーションが優れていることが示された。
論文 参考訳(メタデータ) (2024-02-25T05:22:45Z) - Convolutional State Space Models for Long-Range Spatiotemporal Modeling [65.0993000439043]
ConvS5は、長距離時間モデリングのための効率的な変種である。
トランスフォーマーとConvNISTTMは、長い水平移動実験において、ConvLSTMより3倍速く、トランスフォーマーより400倍速くサンプルを生成する一方で、大幅に性能が向上した。
論文 参考訳(メタデータ) (2023-10-30T16:11:06Z) - Deep Latent State Space Models for Time-Series Generation [68.45746489575032]
状態空間ODEに従って進化する潜伏変数を持つ列の生成モデルLS4を提案する。
近年の深層状態空間モデル(S4)に着想を得て,LS4の畳み込み表現を利用して高速化を実現する。
LS4は, 実世界のデータセット上での限界分布, 分類, 予測スコアにおいて, 従来の連続時間生成モデルよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-24T15:17:42Z) - Liquid Structural State-Space Models [106.74783377913433]
Liquid-S4はLong-Range Arenaベンチマークで平均87.32%の性能を達成した。
全生音声コマンド認識では、データセットLiquid-S4は96.78%の精度で、S4と比較してパラメータ数が30%減少している。
論文 参考訳(メタデータ) (2022-09-26T18:37:13Z) - Simplified State Space Layers for Sequence Modeling [11.215817688691194]
近年、構造化された状態空間列層を用いたモデルが、多くの長距離タスクにおいて最先端の性能を達成している。
ハイパフォーマンスにはHiPPOフレームワークに密接に従う必要があるという考えを再考する。
我々は、S4層が使用する多くの独立したシングルインプット、シングルアウトプット(SISO)SSMのバンクを、1つのマルチインプット、マルチアウトプット(MIMO)SSMで置き換える。
S5は、Long Range Arenaベンチマークスイートで平均82.46%を達成することを含む、長距離タスクにおけるS4のパフォーマンスと一致している。
論文 参考訳(メタデータ) (2022-08-09T17:57:43Z) - Long Range Language Modeling via Gated State Spaces [67.64091993846269]
本稿では,英語書籍,Githubソースコード,ArXiv数学論文の自己回帰シーケンスモデリングに焦点をあてる。
Gated State Space (GSS) と呼ばれる新しい層を提案し、S4の対角線よりもかなり高速に訓練可能であることを示す。
論文 参考訳(メタデータ) (2022-06-27T01:50:18Z) - How to Train Your HiPPO: State Space Models with Generalized Orthogonal
Basis Projections [22.421814045703147]
線形時間不変状態空間モデル(SSM)は機械学習において非常に有望であることが示されている。
理論的にリッチなSSMのクラスを導入し、他のベースに対してより直感的なS4変種を導出できるようにします。
これらの洞察により、S4のパフォーマンスはLong Range Arenaベンチマークで86%、最も難しいPath-Xタスクで96%向上した。
論文 参考訳(メタデータ) (2022-06-24T02:24:41Z) - On the Parameterization and Initialization of Diagonal State Space
Models [35.68370606343843]
対角状態空間モデルのパラメータ化と初期化について述べる。
S4の行列の対角制限は、無限状態次元の極限において、驚くほど同じカーネルを回復することを示す。
論文 参考訳(メタデータ) (2022-06-23T17:58:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。