論文の概要: Efficiently Modeling Long Sequences with Structured State Spaces
- arxiv url: http://arxiv.org/abs/2111.00396v1
- Date: Sun, 31 Oct 2021 03:32:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-02 16:23:25.488143
- Title: Efficiently Modeling Long Sequences with Structured State Spaces
- Title(参考訳): 構造化状態空間を用いた長い列の効率的なモデリング
- Authors: Albert Gu, Karan Goel, Christopher R\'e
- Abstract要約: 本稿では,基本状態空間モデルに対する新しいパラメータ化に基づく新しいシーケンスモデルを提案する。
S4は、(i)データ拡張や補助損失を伴わないシーケンシャルCIFAR-10での91%の精度を含む、より大規模な2次元ResNetと同等の、さまざまな確立されたベンチマークで強力な実験結果を得る。
- 参考スコア(独自算出の注目度): 15.456254157293836
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A central goal of sequence modeling is designing a single principled model
that can address sequence data across a range of modalities and tasks,
particularly on long-range dependencies. Although conventional models including
RNNs, CNNs, and Transformers have specialized variants for capturing long
dependencies, they still struggle to scale to very long sequences of $10000$ or
more steps. A promising recent approach proposed modeling sequences by
simulating the fundamental state space model (SSM) \( x'(t) = Ax(t) + Bu(t),
y(t) = Cx(t) + Du(t) \), and showed that for appropriate choices of the state
matrix \( A \), this system could handle long-range dependencies mathematically
and empirically. However, this method has prohibitive computation and memory
requirements, rendering it infeasible as a general sequence modeling solution.
We propose the Structured State Space (S4) sequence model based on a new
parameterization for the SSM, and show that it can be computed much more
efficiently than prior approaches while preserving their theoretical strengths.
Our technique involves conditioning \( A \) with a low-rank correction,
allowing it to be diagonalized stably and reducing the SSM to the well-studied
computation of a Cauchy kernel. S4 achieves strong empirical results across a
diverse range of established benchmarks, including (i) 91\% accuracy on
sequential CIFAR-10 with no data augmentation or auxiliary losses, on par with
a larger 2-D ResNet, (ii) substantially closing the gap to Transformers on
image and language modeling tasks, while performing generation $60\times$
faster (iii) SoTA on every task from the Long Range Arena benchmark, including
solving the challenging Path-X task of length 16k that all prior work fails on,
while being as efficient as all competitors.
- Abstract(参考訳): シーケンスモデリングの中心的な目標は、さまざまなモダリティやタスク、特に長距離依存性のシーケンスデータに対処する単一の原則モデルを設計することである。
RNN、CNN、Transformerといった従来のモデルは、長い依存関係をキャプチャするための特殊なバリエーションを持っているが、それでも10000ドル以上の非常に長いシーケンスにスケールするのに苦労している。
最近の有望なアプローチでは、基本状態空間モデル (SSM) \(x'(t) = Ax(t) + Bu(t), y(t) = Cx(t) + Du(t) \) をシミュレートし、状態行列 \(A \) の適切な選択に対して、このシステムは数学的かつ経験的に長距離依存を扱うことができることを示した。
しかし、この手法は計算とメモリの要求を禁止しており、一般的なシーケンスモデリングソリューションとして実現できない。
本稿では,ssmの新しいパラメータ化に基づく構造化状態空間(s4)系列モデルを提案し,その理論的な強みを保ちつつ,従来の手法よりもはるかに効率的に計算できることを示す。
本手法は,低ランク補正を条件付けし,安定に対角化可能とし,コーシーカーネルのよく検討された計算量にssmを還元することを含む。
S4は、さまざまな確立されたベンチマークで強力な経験的結果を得る。
(i)データ拡張や補助損失のないシーケンシャルCIFAR-10における91\%の精度が、より大きな2次元ResNetと同等である。
(ii) 画像および言語モデリングタスクにおけるTransformerとのギャップを著しく埋めると同時に、60\times$高速に生成する。
(iii)Long Range ArenaベンチマークのすべてのタスクにおいてSoTAは、すべての前の作業が失敗する長さ16kのPath-Xタスクを解決しつつ、すべての競合他社と同じくらい効率的である。
関連論文リスト
- COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - Drama: Mamba-Enabled Model-Based Reinforcement Learning Is Sample and Parameter Efficient [9.519619751861333]
状態空間モデル(SSM)をベースとした世界モデルを提案する。
長期依存関係を効果的にキャプチャしながら、メモリと計算の複雑さを$O(n)$達成します。
このモデルはアクセス可能で、市販のラップトップでトレーニングすることができる。
論文 参考訳(メタデータ) (2024-10-11T15:10:40Z) - Oscillatory State-Space Models [61.923849241099184]
長いシーケンスを効率的に学習するための線形状態空間モデル(LinOSS)を提案する。
高速な連想並列スキャンを用いて時間とともに統合された安定な離散化により、提案した状態空間モデルが得られる。
我々はLinOSSが普遍であること、すなわち時間変化関数間の連続および因果作用素写像を近似できることを示す。
論文 参考訳(メタデータ) (2024-10-04T22:00:13Z) - LongVQ: Long Sequence Modeling with Vector Quantization on Structured Memory [63.41820940103348]
自己保持機構の計算コストは、長いシーケンスの実用性を制限する。
我々はLongVQと呼ばれる新しい手法を提案し、長さ固定されたコードブックとしてグローバルな抽象化を圧縮する。
LongVQは動的グローバルパターンとローカルパターンを効果的に維持し、長距離依存性の問題の欠如を補うのに役立つ。
論文 参考訳(メタデータ) (2024-04-17T08:26:34Z) - Latent Semantic Consensus For Deterministic Geometric Model Fitting [109.44565542031384]
我々はLSC(Latent Semantic Consensus)と呼ばれる効果的な方法を提案する。
LSCは、モデルフィッティング問題をデータポイントとモデル仮説に基づく2つの潜在意味空間に定式化する。
LSCは、一般的な多構造モデルフィッティングのために、数ミリ秒以内で一貫した、信頼性の高いソリューションを提供することができる。
論文 参考訳(メタデータ) (2024-03-11T05:35:38Z) - Convolutional State Space Models for Long-Range Spatiotemporal Modeling [65.0993000439043]
ConvS5は、長距離時間モデリングのための効率的な変種である。
トランスフォーマーとConvNISTTMは、長い水平移動実験において、ConvLSTMより3倍速く、トランスフォーマーより400倍速くサンプルを生成する一方で、大幅に性能が向上した。
論文 参考訳(メタデータ) (2023-10-30T16:11:06Z) - Never Train from Scratch: Fair Comparison of Long-Sequence Models Requires Data-Driven Priors [44.5740422079]
標準的なデノベーション目的による事前トレーニングは、複数のアーキテクチャで劇的に向上することを示す。
先行研究とは対照的に、適切に事前訓練された場合の長距離アリーナでのS4の性能に適合するバニラトランスフォーマーが見つかる。
論文 参考訳(メタデータ) (2023-10-04T17:17:06Z) - Continuous-time convolutions model of event sequences [46.3471121117337]
イベントシーケンスは不均一でスパースであり、従来のモデルは不適当である。
我々は、時間とともに一様でない事象の発生を処理するために設計された効率的な畳み込みニューラルネットワークに基づくCOTICを提案する。
COTICは、次のイベント時間とタイプを予測する際に既存のモデルよりも優れており、最も近いライバルの3.714と比較して平均1.5のランクに達している。
論文 参考訳(メタデータ) (2023-02-13T10:34:51Z) - A Unified View of Long-Sequence Models towards Modeling Million-Scale
Dependencies [0.0]
既存の解と長周期モデリングを、その純粋数学的定式化の観点から比較する。
次に、長いコンテキスト長がアプリケーションに依存しているにもかかわらず、より良いパフォーマンスをもたらすことを実証します。
大量のキャパシティを持つスパースモデルに着想を得て,百万単位の依存関係を扱う機械学習システムを提案する。
論文 参考訳(メタデータ) (2023-02-13T09:47:31Z) - Reinforcement Learning as One Big Sequence Modeling Problem [84.84564880157149]
強化学習(Reinforcement Learning, RL)は、通常、単一ステップポリシーや単一ステップモデルの推定に関係している。
我々は、RLをシーケンスモデリング問題とみなし、高い報酬のシーケンスにつながる一連のアクションを予測することを目標としている。
論文 参考訳(メタデータ) (2021-06-03T17:58:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。