Fugu-MT 論文翻訳(概要): How to Train Your HiPPO: State Space Models with Generalized Orthogonal Basis Projections

論文の概要: How to Train Your HiPPO: State Space Models with Generalized Orthogonal Basis Projections

arxiv url: http://arxiv.org/abs/2206.12037v1
Date: Fri, 24 Jun 2022 02:24:41 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-27 13:56:23.051595
Title: How to Train Your HiPPO: State Space Models with Generalized Orthogonal Basis Projections
Title（参考訳）: HiPPOのトレーニング方法:一般化直交基底射影による状態空間モデル
Authors: Albert Gu, Isys Johnson, Aman Timalsina, Atri Rudra, Christopher R\'e
Abstract要約: 線形時間不変状態空間モデル(SSM)は機械学習において非常に有望であることが示されている。理論的にリッチなSSMのクラスを導入し、他のベースに対してより直感的なS4変種を導出できるようにします。これらの洞察により、S4のパフォーマンスはLong Range Arenaベンチマークで86%、最も難しいPath-Xタスクで96%向上した。
参考スコア（独自算出の注目度）: 22.421814045703147
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Linear time-invariant state space models (SSM) are a classical model from engineering and statistics, that have recently been shown to be very promising in machine learning through the Structured State Space sequence model (S4). A core component of S4 involves initializing the SSM state matrix to a particular matrix called a HiPPO matrix, which was empirically important for S4's ability to handle long sequences. However, the specific matrix that S4 uses was actually derived in previous work for a particular time-varying dynamical system, and the use of this matrix as a time-invariant SSM had no known mathematical interpretation. Consequently, the theoretical mechanism by which S4 models long-range dependencies actually remains unexplained. We derive a more general and intuitive formulation of the HiPPO framework, which provides a simple mathematical interpretation of S4 as a decomposition onto exponentially-warped Legendre polynomials, explaining its ability to capture long dependencies. Our generalization introduces a theoretically rich class of SSMs that also lets us derive more intuitive S4 variants for other bases such as the Fourier basis, and explains other aspects of training S4, such as how to initialize the important timescale parameter. These insights improve S4's performance to 86% on the Long Range Arena benchmark, with 96% on the most difficult Path-X task.
Abstract（参考訳）: 線形時間不変状態空間モデル(英: linear time-invariant state space model, ssm)は、工学と統計の古典的なモデルであり、近年、構造化状態空間系列モデル(s4)を通じて機械学習において非常に有望であることが示されている。 S4の中核的な構成要素は、SSM状態行列をHiPPO行列と呼ばれる特定の行列に初期化することである。しかし、S4が使用する特定の行列は、実際には特定の時間変化力学系に対する以前の研究で導出されており、この行列を時間不変のSSMとして用いることは、既知の数学的解釈を持たない。その結果、S4が長距離依存をモデル化する理論的メカニズムは、実際には説明できないままである。我々は、指数関数的にワープされたルジャンドル多項式への分解としてS4の単純な数学的解釈を提供するHiPPOフレームワークのより汎用的で直感的な定式化を導き、長い依存を捉える能力を説明する。我々の一般化は理論上リッチなssmクラスを導入し、フーリエ基底のような他の基底に対するより直感的なs4変種を導出し、重要な時間スケールパラメータを初期化する方法など、s4のトレーニングの他の側面を説明します。これらの洞察により、S4のパフォーマンスはLong Range Arenaベンチマークで86%、最も難しいPath-Xタスクで96%向上した。

関連論文リスト

On the Expressiveness and Length Generalization of Selective State-Space Models on Regular Languages [56.22289522687125]
SSM(Selective State-space Model)はTransformerの代替品である。正規言語タスクにおける表現性や長さの一般化性能を解析する。本稿では,Selective Dense State-Space Model (SD-SSM)を紹介する。
論文参考訳（メタデータ） (2024-12-26T20:53:04Z)
Provable Benefits of Complex Parameterizations for Structured State Space Models [51.90574950170374]
構造化状態空間モデル (Structured State Space Model, SSM) は、指定された構造に固執する線形力学系である。パラメータ化が現実の典型的なニューラルネットワークモジュールとは対照的に、SSMは複雑なパラメータ化を使用することが多い。本稿では,実対角 SSM と複素対角 SSM の形式的ギャップを確立することにより,SSM の複雑なパラメータ化の利点を説明する。
論文参考訳（メタデータ） (2024-10-17T22:35:50Z)
HOPE for a Robust Parameterization of Long-memory State Space Models [51.66430224089725]
線形時間不変(LTI)システムを利用する状態空間モデル(SSM)は、長いシーケンスの学習において有効であることが知られている。我々は,ハンケル作用素内のマルコフパラメータを利用するLTIシステムに対して,HOPEと呼ばれる新しいパラメータ化手法を開発した。我々の新しいパラメータ化は、固定時間ウィンドウ内に非遅延メモリを付与し、パッドドノイズのあるシーケンシャルCIFAR-10タスクによって実証的に相関する。
論文参考訳（メタデータ） (2024-05-22T20:20:14Z)
Incorporating Exponential Smoothing into MLP: A Simple but Effective Sequence Model [0.0]
最近開発されたStructured State Space (S4) は、長距離シーケンスをモデル化する上で大きな効果を示した。帰納バイアスの増大と低減を目的とした指数的平滑化(ETS)を提案する。我々のモデルはLRAベンチマークでS4に匹敵する結果を得る。
論文参考訳（メタデータ） (2024-03-26T07:23:46Z)
Convolutional State Space Models for Long-Range Spatiotemporal Modeling [65.0993000439043]
ConvS5は、長距離時間モデリングのための効率的な変種である。トランスフォーマーとConvNISTTMは、長い水平移動実験において、ConvLSTMより3倍速く、トランスフォーマーより400倍速くサンプルを生成する一方で、大幅に性能が向上した。
論文参考訳（メタデータ） (2023-10-30T16:11:06Z)
Robustifying State-space Models for Long Sequences via Approximate Diagonalization [47.321212977509454]
状態空間モデル(SSM)は、長距離シーケンスタスクを学習するためのフレームワークとして登場した。 HiPPOフレームワークの対角化は、それ自体が不適切な問題である。本稿では,汎用的,後方安定な「摂動対角化(PTD)」手法を提案する。
論文参考訳（メタデータ） (2023-10-02T23:36:13Z)
Deep Latent State Space Models for Time-Series Generation [68.45746489575032]
状態空間ODEに従って進化する潜伏変数を持つ列の生成モデルLS4を提案する。近年の深層状態空間モデル(S4)に着想を得て,LS4の畳み込み表現を利用して高速化を実現する。 LS4は, 実世界のデータセット上での限界分布, 分類, 予測スコアにおいて, 従来の連続時間生成モデルよりも有意に優れていた。
論文参考訳（メタデータ） (2022-12-24T15:17:42Z)
Liquid Structural State-Space Models [106.74783377913433]
Liquid-S4はLong-Range Arenaベンチマークで平均87.32%の性能を達成した。全生音声コマンド認識では、データセットLiquid-S4は96.78%の精度で、S4と比較してパラメータ数が30%減少している。
論文参考訳（メタデータ） (2022-09-26T18:37:13Z)
Simplified State Space Layers for Sequence Modeling [11.215817688691194]
近年、構造化された状態空間列層を用いたモデルが、多くの長距離タスクにおいて最先端の性能を達成している。ハイパフォーマンスにはHiPPOフレームワークに密接に従う必要があるという考えを再考する。我々は、S4層が使用する多くの独立したシングルインプット、シングルアウトプット(SISO)SSMのバンクを、1つのマルチインプット、マルチアウトプット(MIMO)SSMで置き換える。 S5は、Long Range Arenaベンチマークスイートで平均82.46%を達成することを含む、長距離タスクにおけるS4のパフォーマンスと一致している。
論文参考訳（メタデータ） (2022-08-09T17:57:43Z)
On the Parameterization and Initialization of Diagonal State Space Models [35.68370606343843]
対角状態空間モデルのパラメータ化と初期化について述べる。 S4の行列の対角制限は、無限状態次元の極限において、驚くほど同じカーネルを回復することを示す。
論文参考訳（メタデータ） (2022-06-23T17:58:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。