論文の概要: Efficiently Modeling Long Sequences with Structured State Spaces
- arxiv url: http://arxiv.org/abs/2111.00396v1
- Date: Sun, 31 Oct 2021 03:32:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-02 16:23:25.488143
- Title: Efficiently Modeling Long Sequences with Structured State Spaces
- Title(参考訳): 構造化状態空間を用いた長い列の効率的なモデリング
- Authors: Albert Gu, Karan Goel, Christopher R\'e
- Abstract要約: 本稿では,基本状態空間モデルに対する新しいパラメータ化に基づく新しいシーケンスモデルを提案する。
S4は、(i)データ拡張や補助損失を伴わないシーケンシャルCIFAR-10での91%の精度を含む、より大規模な2次元ResNetと同等の、さまざまな確立されたベンチマークで強力な実験結果を得る。
- 参考スコア(独自算出の注目度): 15.456254157293836
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A central goal of sequence modeling is designing a single principled model
that can address sequence data across a range of modalities and tasks,
particularly on long-range dependencies. Although conventional models including
RNNs, CNNs, and Transformers have specialized variants for capturing long
dependencies, they still struggle to scale to very long sequences of $10000$ or
more steps. A promising recent approach proposed modeling sequences by
simulating the fundamental state space model (SSM) \( x'(t) = Ax(t) + Bu(t),
y(t) = Cx(t) + Du(t) \), and showed that for appropriate choices of the state
matrix \( A \), this system could handle long-range dependencies mathematically
and empirically. However, this method has prohibitive computation and memory
requirements, rendering it infeasible as a general sequence modeling solution.
We propose the Structured State Space (S4) sequence model based on a new
parameterization for the SSM, and show that it can be computed much more
efficiently than prior approaches while preserving their theoretical strengths.
Our technique involves conditioning \( A \) with a low-rank correction,
allowing it to be diagonalized stably and reducing the SSM to the well-studied
computation of a Cauchy kernel. S4 achieves strong empirical results across a
diverse range of established benchmarks, including (i) 91\% accuracy on
sequential CIFAR-10 with no data augmentation or auxiliary losses, on par with
a larger 2-D ResNet, (ii) substantially closing the gap to Transformers on
image and language modeling tasks, while performing generation $60\times$
faster (iii) SoTA on every task from the Long Range Arena benchmark, including
solving the challenging Path-X task of length 16k that all prior work fails on,
while being as efficient as all competitors.
- Abstract(参考訳): シーケンスモデリングの中心的な目標は、さまざまなモダリティやタスク、特に長距離依存性のシーケンスデータに対処する単一の原則モデルを設計することである。
RNN、CNN、Transformerといった従来のモデルは、長い依存関係をキャプチャするための特殊なバリエーションを持っているが、それでも10000ドル以上の非常に長いシーケンスにスケールするのに苦労している。
最近の有望なアプローチでは、基本状態空間モデル (SSM) \(x'(t) = Ax(t) + Bu(t), y(t) = Cx(t) + Du(t) \) をシミュレートし、状態行列 \(A \) の適切な選択に対して、このシステムは数学的かつ経験的に長距離依存を扱うことができることを示した。
しかし、この手法は計算とメモリの要求を禁止しており、一般的なシーケンスモデリングソリューションとして実現できない。
本稿では,ssmの新しいパラメータ化に基づく構造化状態空間(s4)系列モデルを提案し,その理論的な強みを保ちつつ,従来の手法よりもはるかに効率的に計算できることを示す。
本手法は,低ランク補正を条件付けし,安定に対角化可能とし,コーシーカーネルのよく検討された計算量にssmを還元することを含む。
S4は、さまざまな確立されたベンチマークで強力な経験的結果を得る。
(i)データ拡張や補助損失のないシーケンシャルCIFAR-10における91\%の精度が、より大きな2次元ResNetと同等である。
(ii) 画像および言語モデリングタスクにおけるTransformerとのギャップを著しく埋めると同時に、60\times$高速に生成する。
(iii)Long Range ArenaベンチマークのすべてのタスクにおいてSoTAは、すべての前の作業が失敗する長さ16kのPath-Xタスクを解決しつつ、すべての競合他社と同じくらい効率的である。
関連論文リスト
- Latent Semantic Consensus For Deterministic Geometric Model Fitting [109.44565542031384]
我々はLSC(Latent Semantic Consensus)と呼ばれる効果的な方法を提案する。
LSCは、モデルフィッティング問題をデータポイントとモデル仮説に基づく2つの潜在意味空間に定式化する。
LSCは、一般的な多構造モデルフィッティングのために、数ミリ秒以内で一貫した、信頼性の高いソリューションを提供することができる。
論文 参考訳(メタデータ) (2024-03-11T05:35:38Z) - Accelerating Toeplitz Neural Network with Constant-time Inference
Complexity [21.88774274472737]
Toeplitz Neural Networks (TNN) は、様々なシーケンスモデリングタスクにおいて優れた性能を示した。
それらは、ログ線形の時空複雑さの恩恵を受けながら、Transformerベースのモデルよりも優れていた。
本稿では、TNNと状態空間モデル(SSM)の長所を、推論中にTNNをSSMに変換することで組み合わせることを目的とする。
論文 参考訳(メタデータ) (2023-11-15T07:50:57Z) - Convolutional State Space Models for Long-Range Spatiotemporal Modeling [65.0993000439043]
ConvS5は、長距離時間モデリングのための効率的な変種である。
トランスフォーマーとConvNISTTMは、長い水平移動実験において、ConvLSTMより3倍速く、トランスフォーマーより400倍速くサンプルを生成する一方で、大幅に性能が向上した。
論文 参考訳(メタデータ) (2023-10-30T16:11:06Z) - Never Train from Scratch: Fair Comparison of Long-Sequence Models
Requires Data-Driven Priors [50.09675645981635]
標準的なデノベーション目的による事前トレーニングは、複数のアーキテクチャで劇的に向上することを示す。
先行研究とは対照的に、適切に事前訓練された場合の長距離アリーナでのS4の性能に適合するバニラトランスフォーマーが見つかる。
論文 参考訳(メタデータ) (2023-10-04T17:17:06Z) - Effectively Modeling Time Series with Simple Discrete State Spaces [25.046268609133982]
時系列モデリングのための新しい状態空間時系列アーキテクチャであるSpaceTimeを紹介する。
表現性を示すために,共役行列に基づく新しいSSMパラメータ化を提案する。
長期の地平線予測のために、同伴SSMの「閉ループ」変動を導入する。
効率的なトレーニングと推論のために,前列行列による前列パスのメモリと計算を削減できるアルゴリズムを導入する。
論文 参考訳(メタデータ) (2023-03-16T17:08:21Z) - A Unified View of Long-Sequence Models towards Modeling Million-Scale
Dependencies [0.0]
既存の解と長周期モデリングを、その純粋数学的定式化の観点から比較する。
次に、長いコンテキスト長がアプリケーションに依存しているにもかかわらず、より良いパフォーマンスをもたらすことを実証します。
大量のキャパシティを持つスパースモデルに着想を得て,百万単位の依存関係を扱う機械学習システムを提案する。
論文 参考訳(メタデータ) (2023-02-13T09:47:31Z) - Long Range Language Modeling via Gated State Spaces [67.64091993846269]
本稿では,英語書籍,Githubソースコード,ArXiv数学論文の自己回帰シーケンスモデリングに焦点をあてる。
Gated State Space (GSS) と呼ばれる新しい層を提案し、S4の対角線よりもかなり高速に訓練可能であることを示す。
論文 参考訳(メタデータ) (2022-06-27T01:50:18Z) - Diagonal State Spaces are as Effective as Structured State Spaces [3.8276199743296906]
音声コマンドのデータセット上での音声分類は、概念的にシンプルで実装が容易でありながら、Long Range Arenaタスク上でのS4のパフォーマンスと一致することを示す。
本研究は,低ランク補正を伴わずともS4の性能に一致できることを示し,状態行列を対角線と仮定する。
論文 参考訳(メタデータ) (2022-03-27T16:30:33Z) - Closed-form Continuous-Depth Models [99.40335716948101]
連続深度ニューラルモデルは高度な数値微分方程式解法に依存している。
我々は,CfCネットワークと呼ばれる,記述が簡単で,少なくとも1桁高速な新しいモデル群を提示する。
論文 参考訳(メタデータ) (2021-06-25T22:08:51Z) - Reinforcement Learning as One Big Sequence Modeling Problem [84.84564880157149]
強化学習(Reinforcement Learning, RL)は、通常、単一ステップポリシーや単一ステップモデルの推定に関係している。
我々は、RLをシーケンスモデリング問題とみなし、高い報酬のシーケンスにつながる一連のアクションを予測することを目標としている。
論文 参考訳(メタデータ) (2021-06-03T17:58:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。