論文の概要: Simplified State Space Layers for Sequence Modeling
- arxiv url: http://arxiv.org/abs/2208.04933v1
- Date: Tue, 9 Aug 2022 17:57:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-10 12:57:36.459462
- Title: Simplified State Space Layers for Sequence Modeling
- Title(参考訳): シーケンスモデリングのための簡易状態空間層
- Authors: Jimmy T.H. Smith, Andrew Warrington, and Scott W. Linderman
- Abstract要約: 近年、構造化された状態空間列層を用いたモデルが、多くの長距離タスクにおいて最先端の性能を達成している。
ハイパフォーマンスにはHiPPOフレームワークに密接に従う必要があるという考えを再考する。
我々は、S4層が使用する多くの独立したシングルインプット、シングルアウトプット(SISO)SSMのバンクを、1つのマルチインプット、マルチアウトプット(MIMO)SSMで置き換える。
S5は、Long Range Arenaベンチマークスイートで平均82.46%を達成することを含む、長距離タスクにおけるS4のパフォーマンスと一致している。
- 参考スコア(独自算出の注目度): 11.215817688691194
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficiently modeling long-range dependencies is an important goal in sequence
modeling. Recently, models using structured state space sequence (S4) layers
achieved state-of-the-art performance on many long-range tasks. The S4 layer
combines linear state space models (SSMs) with deep learning techniques and
leverages the HiPPO framework for online function approximation to achieve high
performance. However, this framework led to architectural constraints and
computational difficulties that make the S4 approach complicated to understand
and implement. We revisit the idea that closely following the HiPPO framework
is necessary for high performance. Specifically, we replace the bank of many
independent single-input, single-output (SISO) SSMs the S4 layer uses with one
multi-input, multi-output (MIMO) SSM with a reduced latent dimension. The
reduced latent dimension of the MIMO system allows for the use of efficient
parallel scans which simplify the computations required to apply the S5 layer
as a sequence-to-sequence transformation. In addition, we initialize the state
matrix of the S5 SSM with an approximation to the HiPPO-LegS matrix used by
S4's SSMs and show that this serves as an effective initialization for the MIMO
setting. S5 matches S4's performance on long-range tasks, including achieving
an average of 82.46% on the suite of Long Range Arena benchmarks compared to
S4's 80.48% and the best transformer variant's 61.41%.
- Abstract(参考訳): 長距離依存関係の効率的なモデリングは、シーケンスモデリングの重要な目標である。
近年、構造化状態空間列(S4)層を用いたモデルが、多くの長距離タスクにおいて最先端の性能を達成した。
S4層は線形状態空間モデル(SSM)とディープラーニング技術を組み合わせて、オンライン関数近似にHiPPOフレームワークを活用して高性能を実現する。
しかし、このフレームワークはアーキテクチャ上の制約と計算上の困難をもたらし、s4アプローチの理解と実装を複雑にした。
ハイパフォーマンスにはHiPPOフレームワークに密接に従う必要があるという考えを再考する。
具体的には、S4層が使用する多くの独立したシングルインプット、シングルアウトプット(SISO)SSMのバンクを、1つのマルチインプット、マルチアウトプット(MIMO)SSMに置き換える。
MIMOシステムの潜在次元を小さくすることで、S5層をシーケンス・ツー・シーケンス変換として適用するのに必要な計算を単純化する効率的な並列スキャンが利用可能となる。
さらに、S4のSSMが使用するHiPPO-LegS行列に近似したS5 SSMの状態行列を初期化し、これがMIMO設定の効果的な初期化となることを示す。
S5は、S4の80.48%と最高の変圧器の61.41%と比較して、Long Range Arenaベンチマークのスイートで平均82.46%を達成するなど、長距離タスクにおけるS4のパフォーマンスと一致している。
関連論文リスト
- Provable Benefits of Complex Parameterizations for Structured State Space Models [51.90574950170374]
構造化状態空間モデル (Structured State Space Model, SSM) は、指定された構造に固執する線形力学系である。
パラメータ化が現実の典型的なニューラルネットワークモジュールとは対照的に、SSMは複雑なパラメータ化を使用することが多い。
本稿では,実対角 SSM と複素対角 SSM の形式的ギャップを確立することにより,SSM の複雑なパラメータ化の利点を説明する。
論文 参考訳(メタデータ) (2024-10-17T22:35:50Z) - Mamba-based Light Field Super-Resolution with Efficient Subspace Scanning [48.99361249764921]
4次元光場(LF)超解像において,トランスフォーマー法は優れた性能を示した。
しかし、その二次的な複雑さは、高解像度の4D入力の効率的な処理を妨げる。
我々は,効率的な部分空間走査戦略を設計し,マンバをベースとした光場超解法 MLFSR を提案する。
論文 参考訳(メタデータ) (2024-06-23T11:28:08Z) - HOPE for a Robust Parameterization of Long-memory State Space Models [51.66430224089725]
線形時間不変(LTI)システムを利用する状態空間モデル(SSM)は、長いシーケンスの学習において有効であることが知られている。
我々は,ハンケル作用素内のマルコフパラメータを利用するLTIシステムに対して,HOPEと呼ばれる新しいパラメータ化手法を開発した。
我々の新しいパラメータ化は、固定時間ウィンドウ内に非遅延メモリを付与し、パッドドノイズのあるシーケンシャルCIFAR-10タスクによって実証的に相関する。
論文 参考訳(メタデータ) (2024-05-22T20:20:14Z) - Incorporating Exponential Smoothing into MLP: A Simple but Effective Sequence Model [0.0]
最近開発されたStructured State Space (S4) は、長距離シーケンスをモデル化する上で大きな効果を示した。
帰納バイアスの増大と低減を目的とした指数的平滑化(ETS)を提案する。
我々のモデルはLRAベンチマークでS4に匹敵する結果を得る。
論文 参考訳(メタデータ) (2024-03-26T07:23:46Z) - Convolutional State Space Models for Long-Range Spatiotemporal Modeling [65.0993000439043]
ConvS5は、長距離時間モデリングのための効率的な変種である。
トランスフォーマーとConvNISTTMは、長い水平移動実験において、ConvLSTMより3倍速く、トランスフォーマーより400倍速くサンプルを生成する一方で、大幅に性能が向上した。
論文 参考訳(メタデータ) (2023-10-30T16:11:06Z) - Robustifying State-space Models for Long Sequences via Approximate
Diagonalization [47.321212977509454]
状態空間モデル(SSM)は、長距離シーケンスタスクを学習するためのフレームワークとして登場した。
HiPPOフレームワークの対角化は、それ自体が不適切な問題である。
本稿では,汎用的,後方安定な「摂動対角化(PTD)」手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T23:36:13Z) - A Neural State-Space Model Approach to Efficient Speech Separation [34.38911304755453]
ニューラル状態空間モデル(SSM)に基づく新しい効率的な音声分離フレームワークであるS4Mを紹介する。
SSM手法を音声分離タスクに拡張するために、まず入力混合物を異なる解像度のマルチスケール表現に分解する。
実験の結果,S4Mは他の分離バックボーンとSI-SDRiの相容れない性能を示した。
我々のS4M-tinyモデル(1.8Mパラメータ)は、9.2の乗算演算(MAC)しか持たない雑音条件下で、注意に基づくセプフォーマ(26.0Mパラメータ)を超える。
論文 参考訳(メタデータ) (2023-05-26T13:47:11Z) - Liquid Structural State-Space Models [106.74783377913433]
Liquid-S4はLong-Range Arenaベンチマークで平均87.32%の性能を達成した。
全生音声コマンド認識では、データセットLiquid-S4は96.78%の精度で、S4と比較してパラメータ数が30%減少している。
論文 参考訳(メタデータ) (2022-09-26T18:37:13Z) - How to Train Your HiPPO: State Space Models with Generalized Orthogonal
Basis Projections [22.421814045703147]
線形時間不変状態空間モデル(SSM)は機械学習において非常に有望であることが示されている。
理論的にリッチなSSMのクラスを導入し、他のベースに対してより直感的なS4変種を導出できるようにします。
これらの洞察により、S4のパフォーマンスはLong Range Arenaベンチマークで86%、最も難しいPath-Xタスクで96%向上した。
論文 参考訳(メタデータ) (2022-06-24T02:24:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。