論文の概要: Length independent generalization bounds for deep SSM architectures
- arxiv url: http://arxiv.org/abs/2405.20278v2
- Date: Thu, 11 Jul 2024 07:55:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 22:37:59.522967
- Title: Length independent generalization bounds for deep SSM architectures
- Title(参考訳): 深部SSMアーキテクチャに対する長さ独立一般化境界
- Authors: Dániel Rácz, Mihály Petreczky, Bálint Daróczy,
- Abstract要約: 長距離シーケンスでトレーニングされた多くの最先端モデルは、状態空間モデル(SSM)とニューラルネットワークを組み合わせたシーケンシャルブロックで構成されている。
我々は、安定したSSMブロックを持つこの種のアーキテクチャを保持でき、入力シーケンスの長さに依存しないPACバウンダリを提供する。
- 参考スコア(独自算出の注目度): 0.5530212768657544
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many state-of-the-art models trained on long-range sequences, for example S4, S5 or LRU, are made of sequential blocks combining State-Space Models (SSMs) with neural networks. In this paper we provide a PAC bound that holds for these kind of architectures with stable SSM blocks and does not depend on the length of the input sequence. Imposing stability of the SSM blocks is a standard practice in the literature, and it is known to help performance. Our results provide a theoretical justification for the use of stable SSM blocks as the proposed PAC bound decreases as the degree of stability of the SSM blocks increases.
- Abstract(参考訳): 長距離シーケンスでトレーニングされた多くの最先端モデル(S4、S5、LRU)は、ステートスペースモデル(SSM)とニューラルネットワークを組み合わせたシーケンシャルブロックで構成されている。
本稿では,安定なSSMブロックを持つアーキテクチャにおいて,入力シーケンスの長さに依存しないPACバウンダリを提案する。
SSMブロックの安定性を損なうことは、文学における標準的な慣行であり、パフォーマンスを補助することが知られている。
提案手法は,SSMブロックの安定性が増大するにつれてPAC境界が減少するにつれて,安定なSSMブロックの使用を理論的に正当化するものである。
関連論文リスト
- Longhorn: State Space Models are Amortized Online Learners [51.10124201221601]
本稿では,オンライン回帰目標を最適化するための暗黙の更新に基づく新しい深層SSMアーキテクチャを提案する。
実験の結果,我々のモデルは,標準シーケンスモデリングベンチマークや言語モデリングタスクにおいて,最先端のSSMよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-07-19T11:12:08Z) - Slot State Space Models [26.21351703553609]
本稿では,情報分離の保存・促進を目的として,独立したメカニズムをSSMに組み込む新しいフレームワークであるSlotSSMを紹介する。
実験では,対象中心の映像理解,3次元視覚推論,映像予測タスクにおけるモデルの評価を行った。
論文 参考訳(メタデータ) (2024-06-18T04:59:14Z) - Short-Long Convolutions Help Hardware-Efficient Linear Attention to Focus on Long Sequences [60.489682735061415]
本稿では,状態空間モデルを短時間の畳み込みに置き換えたCHELAを提案する。
提案手法の有効性を示すために,Long Range Arenaベンチマークと言語モデリングタスクについて実験を行った。
論文 参考訳(メタデータ) (2024-06-12T12:12:38Z) - SMR: State Memory Replay for Long Sequence Modeling [19.755738298836526]
本稿では並列畳み込み計算における互換性の限界を克服する新しい非再帰的非一様サンプル処理戦略を提案する。
本研究では,学習可能な記憶を利用する状態記憶再生(SMR)を導入し,学習データと異なるサンプリングポイントでの一般化のために,現在の状態を多段階情報で調整する。
自己回帰言語モデリングとLong Range Arenaにおける長距離モデリングタスクの実験は、一連のSSMモデルに対するSMRメカニズムの一般的な効果を実証している。
論文 参考訳(メタデータ) (2024-05-27T17:53:32Z) - There is HOPE to Avoid HiPPOs for Long-memory State Space Models [51.66430224089725]
線形時間不変(LTI)システムを利用する状態空間モデル(SSM)は、長いシーケンスの学習において有効であることが知られている。
我々は,ハンケル作用素内のパラメータを利用するLTIシステムに対して,HOPEと呼ばれる新しいパラメータ化手法を開発した。
我々のモデルは、LTIシステムの転送関数を一様にサンプリングすることで、これらの革新を効率的に実装する。
論文 参考訳(メタデータ) (2024-05-22T20:20:14Z) - Convolutional State Space Models for Long-Range Spatiotemporal Modeling [65.0993000439043]
ConvS5は、長距離時間モデリングのための効率的な変種である。
トランスフォーマーとConvNISTTMは、長い水平移動実験において、ConvLSTMより3倍速く、トランスフォーマーより400倍速くサンプルを生成する一方で、大幅に性能が向上した。
論文 参考訳(メタデータ) (2023-10-30T16:11:06Z) - Robustifying State-space Models for Long Sequences via Approximate
Diagonalization [47.321212977509454]
状態空間モデル(SSM)は、長距離シーケンスタスクを学習するためのフレームワークとして登場した。
HiPPOフレームワークの対角化は、それ自体が不適切な問題である。
本稿では,汎用的,後方安定な「摂動対角化(PTD)」手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T23:36:13Z) - Liquid Structural State-Space Models [106.74783377913433]
Liquid-S4はLong-Range Arenaベンチマークで平均87.32%の性能を達成した。
全生音声コマンド認識では、データセットLiquid-S4は96.78%の精度で、S4と比較してパラメータ数が30%減少している。
論文 参考訳(メタデータ) (2022-09-26T18:37:13Z) - Simplified State Space Layers for Sequence Modeling [11.215817688691194]
近年、構造化された状態空間列層を用いたモデルが、多くの長距離タスクにおいて最先端の性能を達成している。
ハイパフォーマンスにはHiPPOフレームワークに密接に従う必要があるという考えを再考する。
我々は、S4層が使用する多くの独立したシングルインプット、シングルアウトプット(SISO)SSMのバンクを、1つのマルチインプット、マルチアウトプット(MIMO)SSMで置き換える。
S5は、Long Range Arenaベンチマークスイートで平均82.46%を達成することを含む、長距離タスクにおけるS4のパフォーマンスと一致している。
論文 参考訳(メタデータ) (2022-08-09T17:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。