論文の概要: S7: Selective and Simplified State Space Layers for Sequence Modeling
- arxiv url: http://arxiv.org/abs/2410.03464v1
- Date: Fri, 4 Oct 2024 14:27:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 21:59:46.095860
- Title: S7: Selective and Simplified State Space Layers for Sequence Modeling
- Title(参考訳): S7: シーケンスモデリングのための選択的で単純化された状態空間層
- Authors: Taylan Soydan, Nikola Zubić, Nico Messikommer, Siddhartha Mishra, Davide Scaramuzza,
- Abstract要約: 我々は、入力依存を処理し、入力の可変性を処理できるシンプルで強力なSSMであるS7を紹介する。
我々はS7が時間とともに状態遷移を良好に保ち、長期連続モデリングにおける安定性を保証することを証明した。
S7は、ニューロモルフィックイベントベースのデータセット、Long Range Arenaベンチマーク、さまざまな物理的および生物学的時系列など、さまざまなシーケンスモデリングタスクにおいて、ベースラインを大幅に上回っている。
- 参考スコア(独自算出の注目度): 26.727201015817524
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A central challenge in sequence modeling is efficiently handling tasks with extended contexts. While recent state-space models (SSMs) have made significant progress in this area, they often lack input-dependent filtering or require substantial increases in model complexity to handle input variability. We address this gap by introducing S7, a simplified yet powerful SSM that can handle input dependence while incorporating stable reparameterization and specific design choices to dynamically adjust state transitions based on input content, maintaining efficiency and performance. We prove that this reparameterization ensures stability in long-sequence modeling by keeping state transitions well-behaved over time. Additionally, it controls the gradient norm, enabling efficient training and preventing issues like exploding or vanishing gradients. S7 significantly outperforms baselines across various sequence modeling tasks, including neuromorphic event-based datasets, Long Range Arena benchmarks, and various physical and biological time series. Overall, S7 offers a more straightforward approach to sequence modeling without relying on complex, domain-specific inductive biases, achieving significant improvements across key benchmarks.
- Abstract(参考訳): シーケンスモデリングにおける中心的な課題は、拡張されたコンテキストでタスクを効率的に処理することである。
最近の状態空間モデル(SSM)はこの分野で大きな進歩を遂げているが、入力依存フィルタリングが欠如している場合が多い。
安定なパラメータ化と特定の設計選択を取り入れ、入力内容に基づいて状態遷移を動的に調整し、効率と性能を維持しながら、入力依存を処理できるシンプルで強力なSSMであるS7を導入することで、このギャップに対処する。
この再パラメータ化は、時間とともに状態遷移を良好に保ち、長期連続モデリングにおける安定性を保証することを証明している。
さらに、グラデーション規範をコントロールし、効率的なトレーニングを可能にし、グラデーションの爆発や消滅といった問題を防止する。
S7は、ニューロモルフィックイベントベースのデータセット、Long Range Arenaベンチマーク、さまざまな物理的および生物学的時系列など、さまざまなシーケンスモデリングタスクにおいて、ベースラインを大幅に上回っている。
全体として、S7は、複雑なドメイン固有の帰納的バイアスに頼ることなく、より簡単なシーケンスモデリングアプローチを提供する。
関連論文リスト
- MATEY: multiscale adaptive foundation models for spatiotemporal physical systems [2.7767126393602726]
局所的な特徴に基づくパッチサイズを動的に調整する2つの適応トークン化方式を提案する。
提案するマルチスケール適応モデルであるMATEYの性能を実験で評価する。
また、PDEデータに基づいて事前学習した物理を特徴とする微調整タスクについても紹介する。
論文 参考訳(メタデータ) (2024-12-29T22:13:16Z) - Enhancing Online Continual Learning with Plug-and-Play State Space Model and Class-Conditional Mixture of Discretization [72.81319836138347]
オンライン連続学習(OCL)は、以前に学習したタスクの知識を保持しながら、一度だけ現れるデータストリームから新しいタスクを学習することを目指している。
既存の方法の多くはリプレイに依存しており、正規化や蒸留によるメモリ保持の強化に重点を置いている。
既存のほとんどのメソッドに組み込むことができ、適応性を直接改善できるプラグイン・アンド・プレイモジュールであるS6MODを導入する。
論文 参考訳(メタデータ) (2024-12-24T05:25:21Z) - Breaking Determinism: Fuzzy Modeling of Sequential Recommendation Using Discrete State Space Diffusion Model [66.91323540178739]
シークエンシャルレコメンデーション(SR)は、ユーザーが過去の行動に基づいて興味を持つかもしれない項目を予測することを目的としている。
我々はSRを新しい情報理論の観点から再検討し、逐次モデリング手法がユーザの行動のランダム性と予測不可能性を適切に把握できないことを発見した。
ファジィ情報処理理論に触発された本論文では,制限を克服し,ユーザの関心事の進化をよりよく捉えるために,ファジィなインタラクションシーケンスの組を導入する。
論文 参考訳(メタデータ) (2024-10-31T14:52:01Z) - Short-Long Convolutions Help Hardware-Efficient Linear Attention to Focus on Long Sequences [60.489682735061415]
本稿では,状態空間モデルを短時間の畳み込みに置き換えたCHELAを提案する。
提案手法の有効性を示すために,Long Range Arenaベンチマークと言語モデリングタスクについて実験を行った。
論文 参考訳(メタデータ) (2024-06-12T12:12:38Z) - SMR: State Memory Replay for Long Sequence Modeling [19.755738298836526]
本稿では並列畳み込み計算における互換性の限界を克服する新しい非再帰的非一様サンプル処理戦略を提案する。
本研究では,学習可能な記憶を利用する状態記憶再生(SMR)を導入し,学習データと異なるサンプリングポイントでの一般化のために,現在の状態を多段階情報で調整する。
自己回帰言語モデリングとLong Range Arenaにおける長距離モデリングタスクの実験は、一連のSSMモデルに対するSMRメカニズムの一般的な効果を実証している。
論文 参考訳(メタデータ) (2024-05-27T17:53:32Z) - LongVQ: Long Sequence Modeling with Vector Quantization on Structured Memory [63.41820940103348]
自己保持機構の計算コストは、長いシーケンスの実用性を制限する。
我々はLongVQと呼ばれる新しい手法を提案し、長さ固定されたコードブックとしてグローバルな抽象化を圧縮する。
LongVQは動的グローバルパターンとローカルパターンを効果的に維持し、長距離依存性の問題の欠如を補うのに役立つ。
論文 参考訳(メタデータ) (2024-04-17T08:26:34Z) - Liquid Structural State-Space Models [106.74783377913433]
Liquid-S4はLong-Range Arenaベンチマークで平均87.32%の性能を達成した。
全生音声コマンド認識では、データセットLiquid-S4は96.78%の精度で、S4と比較してパラメータ数が30%減少している。
論文 参考訳(メタデータ) (2022-09-26T18:37:13Z) - Efficiently Modeling Long Sequences with Structured State Spaces [15.456254157293836]
本稿では,基本状態空間モデルに対する新しいパラメータ化に基づく新しいシーケンスモデルを提案する。
S4は、(i)データ拡張や補助損失を伴わないシーケンシャルCIFAR-10での91%の精度を含む、より大規模な2次元ResNetと同等の、さまざまな確立されたベンチマークで強力な実験結果を得る。
論文 参考訳(メタデータ) (2021-10-31T03:32:18Z) - Deep Explicit Duration Switching Models for Time Series [84.33678003781908]
状態依存型と時間依存型の両方のスイッチングダイナミクスを識別できるフレキシブルモデルを提案する。
状態依存スイッチングは、リカレントな状態-スイッチ接続によって実現される。
時間依存スイッチング動作を改善するために、明示的な期間カウント変数が使用される。
論文 参考訳(メタデータ) (2021-10-26T17:35:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。