Fugu-MT 論文翻訳(概要): Efficiently Modeling Long Sequences with Structured State Spaces

論文の概要: Efficiently Modeling Long Sequences with Structured State Spaces

arxiv url: http://arxiv.org/abs/2111.00396v1
Date: Sun, 31 Oct 2021 03:32:18 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-02 16:23:25.488143
Title: Efficiently Modeling Long Sequences with Structured State Spaces
Title（参考訳）: 構造化状態空間を用いた長い列の効率的なモデリング
Authors: Albert Gu, Karan Goel, Christopher R\'e
Abstract要約: 本稿では,基本状態空間モデルに対する新しいパラメータ化に基づく新しいシーケンスモデルを提案する。 S4は、(i)データ拡張や補助損失を伴わないシーケンシャルCIFAR-10での91%の精度を含む、より大規模な2次元ResNetと同等の、さまざまな確立されたベンチマークで強力な実験結果を得る。
参考スコア（独自算出の注目度）: 15.456254157293836
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A central goal of sequence modeling is designing a single principled model that can address sequence data across a range of modalities and tasks, particularly on long-range dependencies. Although conventional models including RNNs, CNNs, and Transformers have specialized variants for capturing long dependencies, they still struggle to scale to very long sequences of $10000$ or more steps. A promising recent approach proposed modeling sequences by simulating the fundamental state space model (SSM) $ x'(t) = Ax(t) + Bu(t), y(t) = Cx(t) + Du(t) $, and showed that for appropriate choices of the state matrix $ A $, this system could handle long-range dependencies mathematically and empirically. However, this method has prohibitive computation and memory requirements, rendering it infeasible as a general sequence modeling solution. We propose the Structured State Space (S4) sequence model based on a new parameterization for the SSM, and show that it can be computed much more efficiently than prior approaches while preserving their theoretical strengths. Our technique involves conditioning $ A $ with a low-rank correction, allowing it to be diagonalized stably and reducing the SSM to the well-studied computation of a Cauchy kernel. S4 achieves strong empirical results across a diverse range of established benchmarks, including (i) 91\% accuracy on sequential CIFAR-10 with no data augmentation or auxiliary losses, on par with a larger 2-D ResNet, (ii) substantially closing the gap to Transformers on image and language modeling tasks, while performing generation $60\times$ faster (iii) SoTA on every task from the Long Range Arena benchmark, including solving the challenging Path-X task of length 16k that all prior work fails on, while being as efficient as all competitors.
Abstract（参考訳）: シーケンスモデリングの中心的な目標は、さまざまなモダリティやタスク、特に長距離依存性のシーケンスデータに対処する単一の原則モデルを設計することである。 RNN、CNN、Transformerといった従来のモデルは、長い依存関係をキャプチャするための特殊なバリエーションを持っているが、それでも10000ドル以上の非常に長いシーケンスにスケールするのに苦労している。最近の有望なアプローチでは、基本状態空間モデル (SSM) $x'(t) = Ax(t) + Bu(t), y(t) = Cx(t) + Du(t) $ をシミュレートし、状態行列 $A $ の適切な選択に対して、このシステムは数学的かつ経験的に長距離依存を扱うことができることを示した。しかし、この手法は計算とメモリの要求を禁止しており、一般的なシーケンスモデリングソリューションとして実現できない。本稿では,ssmの新しいパラメータ化に基づく構造化状態空間(s4)系列モデルを提案し,その理論的な強みを保ちつつ,従来の手法よりもはるかに効率的に計算できることを示す。本手法は,低ランク補正を条件付けし,安定に対角化可能とし,コーシーカーネルのよく検討された計算量にssmを還元することを含む。 S4は、さまざまな確立されたベンチマークで強力な経験的結果を得る。 (i)データ拡張や補助損失のないシーケンシャルCIFAR-10における91\%の精度が、より大きな2次元ResNetと同等である。 (ii) 画像および言語モデリングタスクにおけるTransformerとのギャップを著しく埋めると同時に、60\times$高速に生成する。 (iii)Long Range ArenaベンチマークのすべてのタスクにおいてSoTAは、すべての前の作業が失敗する長さ16kのPath-Xタスクを解決しつつ、すべての競合他社と同じくらい効率的である。

関連論文リスト

Sequential-Parallel Duality in Prefix Scannable Models [68.39855814099997]
近年では Gated Linear Attention (GLA) や Mamba など様々なモデルが開発されている。ニアコンスタント時間並列評価と線形時間、定数空間シーケンシャル推論をサポートするニューラルネットワークモデルの全クラスを特徴付けることができるだろうか?
論文参考訳（メタデータ） (2025-06-12T17:32:02Z)
Leveraging State Space Models in Long Range Genomics [1.130790932059036]
長距離依存関係はゲノム構造や機能を理解する上で重要であるが、ほとんどの従来の手法はそれらと競合する。我々は、長距離ゲノミクスモデリングタスクにおいて、2つのSSMにインスパイアされたアーキテクチャをベンチマークすることで、ステートスペースモデル(SSM)を有望な代替手段として検討する。 SSMは、トランスフォーマーのパフォーマンスにマッチし、複数のタスクにまたがる印象的なゼロショット外挿を示し、トレーニング中に見られるものより10倍から100倍長いコンテキストを処理する。
論文参考訳（メタデータ） (2025-04-07T18:34:06Z)
Merging Models on the Fly Without Retraining: A Sequential Approach to Scalable Continual Model Merging [75.93960998357812]
ディープモデルマージ(Deep Modelmerging)は、複数の微調整モデルを組み合わせて、さまざまなタスクやドメインにまたがる能力を活用する、新たな研究方向を示すものだ。現在のモデルマージ技術は、全ての利用可能なモデルを同時にマージすることに集中しており、重量行列に基づく手法が主要なアプローチである。本稿では,モデルを逐次処理するトレーニングフリーなプロジェクションベース連続マージ手法を提案する。
論文参考訳（メタデータ） (2025-01-16T13:17:24Z)
COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文参考訳（メタデータ） (2024-10-12T23:56:19Z)
Drama: Mamba-Enabled Model-Based Reinforcement Learning Is Sample and Parameter Efficient [9.519619751861333]
状態空間モデル(SSM)をベースとした世界モデルを提案する。長期依存関係を効果的にキャプチャしながら、メモリと計算の複雑さを$O(n)$達成します。このモデルはアクセス可能で、市販のラップトップでトレーニングすることができる。
論文参考訳（メタデータ） (2024-10-11T15:10:40Z)
Oscillatory State-Space Models [61.923849241099184]
長いシーケンスを効率的に学習するための線形状態空間モデル(LinOSS)を提案する。高速な連想並列スキャンを用いて時間とともに統合された安定な離散化により、提案した状態空間モデルが得られる。我々はLinOSSが普遍であること、すなわち時間変化関数間の連続および因果作用素写像を近似できることを示す。
論文参考訳（メタデータ） (2024-10-04T22:00:13Z)
LongVQ: Long Sequence Modeling with Vector Quantization on Structured Memory [63.41820940103348]
自己保持機構の計算コストは、長いシーケンスの実用性を制限する。我々はLongVQと呼ばれる新しい手法を提案し、長さ固定されたコードブックとしてグローバルな抽象化を圧縮する。 LongVQは動的グローバルパターンとローカルパターンを効果的に維持し、長距離依存性の問題の欠如を補うのに役立つ。
論文参考訳（メタデータ） (2024-04-17T08:26:34Z)
Latent Semantic Consensus For Deterministic Geometric Model Fitting [109.44565542031384]
我々はLSC(Latent Semantic Consensus)と呼ばれる効果的な方法を提案する。 LSCは、モデルフィッティング問題をデータポイントとモデル仮説に基づく2つの潜在意味空間に定式化する。 LSCは、一般的な多構造モデルフィッティングのために、数ミリ秒以内で一貫した、信頼性の高いソリューションを提供することができる。
論文参考訳（メタデータ） (2024-03-11T05:35:38Z)
Convolutional State Space Models for Long-Range Spatiotemporal Modeling [65.0993000439043]
ConvS5は、長距離時間モデリングのための効率的な変種である。トランスフォーマーとConvNISTTMは、長い水平移動実験において、ConvLSTMより3倍速く、トランスフォーマーより400倍速くサンプルを生成する一方で、大幅に性能が向上した。
論文参考訳（メタデータ） (2023-10-30T16:11:06Z)
Never Train from Scratch: Fair Comparison of Long-Sequence Models Requires Data-Driven Priors [44.5740422079]
標準的なデノベーション目的による事前トレーニングは、複数のアーキテクチャで劇的に向上することを示す。先行研究とは対照的に、適切に事前訓練された場合の長距離アリーナでのS4の性能に適合するバニラトランスフォーマーが見つかる。
論文参考訳（メタデータ） (2023-10-04T17:17:06Z)
Continuous-time convolutions model of event sequences [46.3471121117337]
イベントシーケンスは不均一でスパースであり、従来のモデルは不適当である。我々は、時間とともに一様でない事象の発生を処理するために設計された効率的な畳み込みニューラルネットワークに基づくCOTICを提案する。 COTICは、次のイベント時間とタイプを予測する際に既存のモデルよりも優れており、最も近いライバルの3.714と比較して平均1.5のランクに達している。
論文参考訳（メタデータ） (2023-02-13T10:34:51Z)
A Unified View of Long-Sequence Models towards Modeling Million-Scale Dependencies [0.0]
既存の解と長周期モデリングを、その純粋数学的定式化の観点から比較する。次に、長いコンテキスト長がアプリケーションに依存しているにもかかわらず、より良いパフォーマンスをもたらすことを実証します。大量のキャパシティを持つスパースモデルに着想を得て,百万単位の依存関係を扱う機械学習システムを提案する。
論文参考訳（メタデータ） (2023-02-13T09:47:31Z)
Efficient Long Sequence Modeling via State Space Augmented Transformer [92.74707853711374]
我々はSPADE($underlinetextbfS$tate sunderlinetextbfP$ace)を提案する。我々は,SPADEの底層にSSMを付加し,他の層に対して効率的な局所的注意法を適用した。 Long Range Arenaベンチマークと言語モデリングタスクの実験結果から,提案手法の有効性が示された。
論文参考訳（メタデータ） (2022-12-15T20:51:27Z)
Diagonal State Spaces are as Effective as Structured State Spaces [3.8276199743296906]
音声コマンドのデータセット上での音声分類は、概念的にシンプルで実装が容易でありながら、Long Range Arenaタスク上でのS4のパフォーマンスと一致することを示す。本研究は,低ランク補正を伴わずともS4の性能に一致できることを示し,状態行列を対角線と仮定する。
論文参考訳（メタデータ） (2022-03-27T16:30:33Z)
Reinforcement Learning as One Big Sequence Modeling Problem [84.84564880157149]
強化学習(Reinforcement Learning, RL)は、通常、単一ステップポリシーや単一ステップモデルの推定に関係している。我々は、RLをシーケンスモデリング問題とみなし、高い報酬のシーケンスにつながる一連のアクションを予測することを目標としている。
論文参考訳（メタデータ） (2021-06-03T17:58:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。