論文の概要: How to Train Your HiPPO: State Space Models with Generalized Orthogonal
Basis Projections
- arxiv url: http://arxiv.org/abs/2206.12037v1
- Date: Fri, 24 Jun 2022 02:24:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-27 13:56:23.051595
- Title: How to Train Your HiPPO: State Space Models with Generalized Orthogonal
Basis Projections
- Title(参考訳): HiPPOのトレーニング方法:一般化直交基底射影による状態空間モデル
- Authors: Albert Gu, Isys Johnson, Aman Timalsina, Atri Rudra, Christopher R\'e
- Abstract要約: 線形時間不変状態空間モデル(SSM)は機械学習において非常に有望であることが示されている。
理論的にリッチなSSMのクラスを導入し、他のベースに対してより直感的なS4変種を導出できるようにします。
これらの洞察により、S4のパフォーマンスはLong Range Arenaベンチマークで86%、最も難しいPath-Xタスクで96%向上した。
- 参考スコア(独自算出の注目度): 22.421814045703147
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Linear time-invariant state space models (SSM) are a classical model from
engineering and statistics, that have recently been shown to be very promising
in machine learning through the Structured State Space sequence model (S4). A
core component of S4 involves initializing the SSM state matrix to a particular
matrix called a HiPPO matrix, which was empirically important for S4's ability
to handle long sequences. However, the specific matrix that S4 uses was
actually derived in previous work for a particular time-varying dynamical
system, and the use of this matrix as a time-invariant SSM had no known
mathematical interpretation. Consequently, the theoretical mechanism by which
S4 models long-range dependencies actually remains unexplained. We derive a
more general and intuitive formulation of the HiPPO framework, which provides a
simple mathematical interpretation of S4 as a decomposition onto
exponentially-warped Legendre polynomials, explaining its ability to capture
long dependencies. Our generalization introduces a theoretically rich class of
SSMs that also lets us derive more intuitive S4 variants for other bases such
as the Fourier basis, and explains other aspects of training S4, such as how to
initialize the important timescale parameter. These insights improve S4's
performance to 86% on the Long Range Arena benchmark, with 96% on the most
difficult Path-X task.
- Abstract(参考訳): 線形時間不変状態空間モデル(英: linear time-invariant state space model, ssm)は、工学と統計の古典的なモデルであり、近年、構造化状態空間系列モデル(s4)を通じて機械学習において非常に有望であることが示されている。
S4の中核的な構成要素は、SSM状態行列をHiPPO行列と呼ばれる特定の行列に初期化することである。
しかし、S4が使用する特定の行列は、実際には特定の時間変化力学系に対する以前の研究で導出されており、この行列を時間不変のSSMとして用いることは、既知の数学的解釈を持たない。
その結果、S4が長距離依存をモデル化する理論的メカニズムは、実際には説明できないままである。
我々は、指数関数的にワープされたルジャンドル多項式への分解としてS4の単純な数学的解釈を提供するHiPPOフレームワークのより汎用的で直感的な定式化を導き、長い依存を捉える能力を説明する。
我々の一般化は理論上リッチなssmクラスを導入し、フーリエ基底のような他の基底に対するより直感的なs4変種を導出し、重要な時間スケールパラメータを初期化する方法など、s4のトレーニングの他の側面を説明します。
これらの洞察により、S4のパフォーマンスはLong Range Arenaベンチマークで86%、最も難しいPath-Xタスクで96%向上した。
関連論文リスト
- Benchmarking GPT-4 on Algorithmic Problems: A Systematic Evaluation of
Prompting Strategies [51.485598133884615]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらした。
LLMは体系的な一般化を欠き、学習された統計正則をトレーニング分布の外へ外挿することができる。
本稿では,最も先進的なLCMの1つであるGPT-4の系統的なベンチマークを行う。
論文 参考訳(メタデータ) (2024-02-27T10:44:52Z) - Convolutional State Space Models for Long-Range Spatiotemporal Modeling [65.0993000439043]
ConvS5は、長距離時間モデリングのための効率的な変種である。
トランスフォーマーとConvNISTTMは、長い水平移動実験において、ConvLSTMより3倍速く、トランスフォーマーより400倍速くサンプルを生成する一方で、大幅に性能が向上した。
論文 参考訳(メタデータ) (2023-10-30T16:11:06Z) - Robustifying State-space Models for Long Sequences via Approximate
Diagonalization [47.321212977509454]
状態空間モデル(SSM)は、長距離シーケンスタスクを学習するためのフレームワークとして登場した。
HiPPOフレームワークの対角化は、それ自体が不適切な問題である。
本稿では,汎用的,後方安定な「摂動対角化(PTD)」手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T23:36:13Z) - A Neural State-Space Model Approach to Efficient Speech Separation [34.38911304755453]
ニューラル状態空間モデル(SSM)に基づく新しい効率的な音声分離フレームワークであるS4Mを紹介する。
SSM手法を音声分離タスクに拡張するために、まず入力混合物を異なる解像度のマルチスケール表現に分解する。
実験の結果,S4Mは他の分離バックボーンとSI-SDRiの相容れない性能を示した。
我々のS4M-tinyモデル(1.8Mパラメータ)は、9.2の乗算演算(MAC)しか持たない雑音条件下で、注意に基づくセプフォーマ(26.0Mパラメータ)を超える。
論文 参考訳(メタデータ) (2023-05-26T13:47:11Z) - Deep Latent State Space Models for Time-Series Generation [68.45746489575032]
状態空間ODEに従って進化する潜伏変数を持つ列の生成モデルLS4を提案する。
近年の深層状態空間モデル(S4)に着想を得て,LS4の畳み込み表現を利用して高速化を実現する。
LS4は, 実世界のデータセット上での限界分布, 分類, 予測スコアにおいて, 従来の連続時間生成モデルよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-24T15:17:42Z) - Liquid Structural State-Space Models [106.74783377913433]
Liquid-S4はLong-Range Arenaベンチマークで平均87.32%の性能を達成した。
全生音声コマンド認識では、データセットLiquid-S4は96.78%の精度で、S4と比較してパラメータ数が30%減少している。
論文 参考訳(メタデータ) (2022-09-26T18:37:13Z) - Simplified State Space Layers for Sequence Modeling [11.215817688691194]
近年、構造化された状態空間列層を用いたモデルが、多くの長距離タスクにおいて最先端の性能を達成している。
ハイパフォーマンスにはHiPPOフレームワークに密接に従う必要があるという考えを再考する。
我々は、S4層が使用する多くの独立したシングルインプット、シングルアウトプット(SISO)SSMのバンクを、1つのマルチインプット、マルチアウトプット(MIMO)SSMで置き換える。
S5は、Long Range Arenaベンチマークスイートで平均82.46%を達成することを含む、長距離タスクにおけるS4のパフォーマンスと一致している。
論文 参考訳(メタデータ) (2022-08-09T17:57:43Z) - Long Range Language Modeling via Gated State Spaces [67.64091993846269]
本稿では,英語書籍,Githubソースコード,ArXiv数学論文の自己回帰シーケンスモデリングに焦点をあてる。
Gated State Space (GSS) と呼ばれる新しい層を提案し、S4の対角線よりもかなり高速に訓練可能であることを示す。
論文 参考訳(メタデータ) (2022-06-27T01:50:18Z) - On the Parameterization and Initialization of Diagonal State Space
Models [35.68370606343843]
対角状態空間モデルのパラメータ化と初期化について述べる。
S4の行列の対角制限は、無限状態次元の極限において、驚くほど同じカーネルを回復することを示す。
論文 参考訳(メタデータ) (2022-06-23T17:58:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。