Fugu-MT 論文翻訳(概要): Length independent generalization bounds for deep SSM architectures

論文の概要: Length independent generalization bounds for deep SSM architectures

arxiv url: http://arxiv.org/abs/2405.20278v2
Date: Thu, 11 Jul 2024 07:55:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-12 22:37:59.522967
Title: Length independent generalization bounds for deep SSM architectures
Title（参考訳）: 深部SSMアーキテクチャに対する長さ独立一般化境界
Authors: Dániel Rácz, Mihály Petreczky, Bálint Daróczy,
Abstract要約: 長距離シーケンスでトレーニングされた多くの最先端モデルは、状態空間モデル(SSM)とニューラルネットワークを組み合わせたシーケンシャルブロックで構成されている。我々は、安定したSSMブロックを持つこの種のアーキテクチャを保持でき、入力シーケンスの長さに依存しないPACバウンダリを提供する。
参考スコア（独自算出の注目度）: 0.5530212768657544
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Many state-of-the-art models trained on long-range sequences, for example S4, S5 or LRU, are made of sequential blocks combining State-Space Models (SSMs) with neural networks. In this paper we provide a PAC bound that holds for these kind of architectures with stable SSM blocks and does not depend on the length of the input sequence. Imposing stability of the SSM blocks is a standard practice in the literature, and it is known to help performance. Our results provide a theoretical justification for the use of stable SSM blocks as the proposed PAC bound decreases as the degree of stability of the SSM blocks increases.
Abstract（参考訳）: 長距離シーケンスでトレーニングされた多くの最先端モデル(S4、S5、LRU)は、ステートスペースモデル(SSM)とニューラルネットワークを組み合わせたシーケンシャルブロックで構成されている。本稿では,安定なSSMブロックを持つアーキテクチャにおいて,入力シーケンスの長さに依存しないPACバウンダリを提案する。 SSMブロックの安定性を損なうことは、文学における標準的な慣行であり、パフォーマンスを補助することが知られている。提案手法は,SSMブロックの安定性が増大するにつれてPAC境界が減少するにつれて,安定なSSMブロックの使用を理論的に正当化するものである。

関連論文リスト

W4S4: WaLRUS Meets S4 for Long-Range Sequence Modeling [23.453158933852357]
状態空間モデル(SSM)は、シーケンスモデリングの強力なコンポーネントとして登場した。冗長ウェーブレットフレームから構築された新しいSSMであるW4S4(WaLRUS for S4)を導入する。我々は,HipPOをベースとしたSSMよりも長い地平線上での情報保持が極めて優れていることを示す。
論文参考訳（メタデータ） (2025-06-09T16:33:29Z)
Long-Context State-Space Video World Models [66.28743632951218]
本稿では、状態空間モデル(SSM)を活用して、計算効率を損なうことなく時間記憶を拡張する新しいアーキテクチャを提案する。我々の設計の中心はブロックワイズSSMスキャン方式であり、時間記憶の拡張のために空間整合性を戦略的にトレードオフする。メモリ迷路とMinecraftのデータセットの実験は、我々のアプローチが長距離メモリ保存のベースラインを超えたことを示している。
論文参考訳（メタデータ） (2025-05-26T16:12:41Z)
Exemplar-Free Continual Learning for State Space Models [32.73275711666184]
State-Space Models (SSM) は構造化された再帰で長距離の依存関係をキャプチャする。彼らの進化する内部状態は、継続的学習の下でそれらを適応する上で困難を生じさせる。 Inf-SSMを提案する。
論文参考訳（メタデータ） (2025-05-24T08:59:13Z)
Learning to Dissipate Energy in Oscillatory State-Space Models [55.09730499143998]
状態空間モデル (SSM) はシーケンス学習のためのネットワークのクラスである。我々は,D-LinOSSがLinOSSの手法を長距離学習タスクで一貫して上回っていることを示す。
論文参考訳（メタデータ） (2025-05-17T23:15:17Z)
Regularity and Stability Properties of Selective SSMs with Discontinuous Gating [18.718025325906762]
本稿では, 連続時間選択SSMの安定性と規則性について検討する。我々は、本質的なエネルギー散逸が過去の状態を指数的に忘れることを保証することを確証する。本研究は,安定かつ信頼性の高い深層選択型SSMの理解と設計のための厳密な枠組みを提供する。
論文参考訳（メタデータ） (2025-05-16T18:08:40Z)
Understanding and Mitigating Bottlenecks of State Space Models through the Lens of Recency and Over-smoothing [56.66469232740998]
構造化状態空間モデル (Structured State Space Models, SSMs) は, 強い相対バイアスによって本質的に制限されていることを示す。このバイアスにより、モデルが遠方の情報を思い出す能力が損なわれ、堅牢性の問題がもたらされる。本研究では, 状態遷移行列の2つのチャネルをSSMで分極し, それぞれ0と1に設定し, 電流バイアスと過平滑化に同時に対処することを提案する。
論文参考訳（メタデータ） (2024-12-31T22:06:39Z)
Mamba-CL: Optimizing Selective State Space Model in Null Space for Continual Learning [54.19222454702032]
継続的学習は、AIモデルに時間とともに一連のタスクを学習する能力を持たせることを目的としている。ステートスペースモデル(SSM)はコンピュータビジョンにおいて顕著な成功を収めた。大規模マンバ基礎モデルのコアSSMを連続的に微調整するフレームワークであるMamba-CLを紹介する。
論文参考訳（メタデータ） (2024-11-23T06:36:16Z)
Provable Benefits of Complex Parameterizations for Structured State Space Models [51.90574950170374]
構造化状態空間モデル (Structured State Space Model, SSM) は、指定された構造に固執する線形力学系である。パラメータ化が現実の典型的なニューラルネットワークモジュールとは対照的に、SSMは複雑なパラメータ化を使用することが多い。本稿では,実対角 SSM と複素対角 SSM の形式的ギャップを確立することにより,SSM の複雑なパラメータ化の利点を説明する。
論文参考訳（メタデータ） (2024-10-17T22:35:50Z)
SDE: A Simplified and Disentangled Dependency Encoding Framework for State Space Models in Time Series Forecasting [8.841699904757506]
精度予測の基本となる3つの重要な依存関係を特定し,正式に定義する。 SDE(Simplified and Disentangled Dependency entangle)は,時系列予測におけるSSMの能力向上を目的とした新しいフレームワークである。
論文参考訳（メタデータ） (2024-08-22T02:14:59Z)
SMR: State Memory Replay for Long Sequence Modeling [19.755738298836526]
本稿では並列畳み込み計算における互換性の限界を克服する新しい非再帰的非一様サンプル処理戦略を提案する。本研究では,学習可能な記憶を利用する状態記憶再生(SMR)を導入し,学習データと異なるサンプリングポイントでの一般化のために,現在の状態を多段階情報で調整する。自己回帰言語モデリングとLong Range Arenaにおける長距離モデリングタスクの実験は、一連のSSMモデルに対するSMRメカニズムの一般的な効果を実証している。
論文参考訳（メタデータ） (2024-05-27T17:53:32Z)
HOPE for a Robust Parameterization of Long-memory State Space Models [51.66430224089725]
線形時間不変(LTI)システムを利用する状態空間モデル(SSM)は、長いシーケンスの学習において有効であることが知られている。我々は,ハンケル作用素内のマルコフパラメータを利用するLTIシステムに対して,HOPEと呼ばれる新しいパラメータ化手法を開発した。我々の新しいパラメータ化は、固定時間ウィンドウ内に非遅延メモリを付与し、パッドドノイズのあるシーケンシャルCIFAR-10タスクによって実証的に相関する。
論文参考訳（メタデータ） (2024-05-22T20:20:14Z)
Convolutional State Space Models for Long-Range Spatiotemporal Modeling [65.0993000439043]
ConvS5は、長距離時間モデリングのための効率的な変種である。トランスフォーマーとConvNISTTMは、長い水平移動実験において、ConvLSTMより3倍速く、トランスフォーマーより400倍速くサンプルを生成する一方で、大幅に性能が向上した。
論文参考訳（メタデータ） (2023-10-30T16:11:06Z)
Robustifying State-space Models for Long Sequences via Approximate Diagonalization [47.321212977509454]
状態空間モデル(SSM)は、長距離シーケンスタスクを学習するためのフレームワークとして登場した。 HiPPOフレームワークの対角化は、それ自体が不適切な問題である。本稿では,汎用的,後方安定な「摂動対角化(PTD)」手法を提案する。
論文参考訳（メタデータ） (2023-10-02T23:36:13Z)
Liquid Structural State-Space Models [106.74783377913433]
Liquid-S4はLong-Range Arenaベンチマークで平均87.32%の性能を達成した。全生音声コマンド認識では、データセットLiquid-S4は96.78%の精度で、S4と比較してパラメータ数が30%減少している。
論文参考訳（メタデータ） (2022-09-26T18:37:13Z)
Simplified State Space Layers for Sequence Modeling [11.215817688691194]
近年、構造化された状態空間列層を用いたモデルが、多くの長距離タスクにおいて最先端の性能を達成している。ハイパフォーマンスにはHiPPOフレームワークに密接に従う必要があるという考えを再考する。我々は、S4層が使用する多くの独立したシングルインプット、シングルアウトプット(SISO)SSMのバンクを、1つのマルチインプット、マルチアウトプット(MIMO)SSMで置き換える。 S5は、Long Range Arenaベンチマークスイートで平均82.46%を達成することを含む、長距離タスクにおけるS4のパフォーマンスと一致している。
論文参考訳（メタデータ） (2022-08-09T17:57:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。