論文の概要: On Structured State-Space Duality
- arxiv url: http://arxiv.org/abs/2510.04944v1
- Date: Mon, 06 Oct 2025 15:46:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.956388
- Title: On Structured State-Space Duality
- Title(参考訳): 構造付き状態空間双対について
- Authors: Jerry Yao-Chieh Hu, Xiwen Zhang, Weimin Wu, Han Liu,
- Abstract要約: スカラー時間同一性状態行列を持つ構造化状態空間モデルは、マスク付き自己アテンションと1ドルで分離可能な因果マスクと等価である。
この双対性を形式化し一般化し、対角SSMがスカラーケースのトレーニング複雑性の低い境界に一致することを示す。
これらの結果は、繰り返しSSMとトランスフォーマーの間の橋渡しを強化し、表現的かつ効率的なシーケンスモデルの設計空間を広げる。
- 参考スコア(独自算出の注目度): 18.259743010069613
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Structured State-Space Duality (SSD) [Dao & Gu, ICML 2024] is an equivalence between a simple Structured State-Space Model (SSM) and a masked attention mechanism. In particular, a state-space model with a scalar-times-identity state matrix is equivalent to a masked self-attention with a $1$-semiseparable causal mask. Consequently, the same sequence transformation (model) has two algorithmic realizations: as a linear-time $O(T)$ recurrence or as a quadratic-time $O(T^2)$ attention. In this note, we formalize and generalize this duality: (i) we extend SSD from the scalar-identity case to general diagonal SSMs (diagonal state matrices); (ii) we show that these diagonal SSMs match the scalar case's training complexity lower bounds while supporting richer dynamics; (iii) we establish a necessary and sufficient condition under which an SSM is equivalent to $1$-semiseparable masked attention; and (iv) we show that such duality fails to extend to standard softmax attention due to rank explosion. Together, these results tighten bridge between recurrent SSMs and Transformers, and widen the design space for expressive yet efficient sequence models.
- Abstract(参考訳): Structured State-Space Duality (SSD) [Dao & Gu, ICML 2024] は単純なStructured State-Space Model (SSM) とマスク付きアテンション機構の等価性である。
特に、スカラー時間同一性状態行列を持つ状態空間モデルは、マスク付き自己アテンションに1ドルで分離可能な因果マスクと等価である。
したがって、同じ配列変換(モデル)は、線形時間$O(T)$繰り返しとして、または二次時間$O(T^2)$注意として、2つのアルゴリズム的実現を持つ。
ここでは、この双対性を形式化し、一般化する。
(i) SSDをスカラー・アイデンティティー・ケースから一般対角SSM(対角状態行列)に拡張する。
(II)これらの対角線SSMは、よりリッチなダイナミックスをサポートしながら、スカラーケースのトレーニング複雑性の低い境界に一致していることを示す。
三 必要かつ十分な条件を定め、そこでは、SSMが一対一の仮面に相当し、かつ、
(4)このような双対性は、階級爆発による標準ソフトマックスアテンションに拡張されないことを示す。
これらの結果により、繰り返しSSMとトランスフォーマーの橋渡しが強化され、表現的かつ効率的なシーケンスモデルの設計空間が拡大される。
関連論文リスト
- Structured Sparse Transition Matrices to Enable State Tracking in State-Space Models [68.31088463716269]
状態空間モデル(SSM)における遷移行列の構造的スパースパラメトリゼーションを提案する。
我々の方法PD-SSMは、遷移行列をカラム1ホット行列(P$)と複素数値対角行列(D$)の積としてパラメータ化する。
このモデルは、様々なFSA状態追跡タスクにおいて、現代のSSMの多種多様なバリエーションを著しく上回っている。
論文 参考訳(メタデータ) (2025-09-26T12:46:30Z) - Echo State Networks as State-Space Models: A Systems Perspective [10.710447183485284]
本研究では, エコー状態特性が非線形SSMの入力状態安定性の例であることを示す。
また、解釈可能な極とメモリ水平線を持つ局所有効なLTI SSMを生成する2つの相補写像も開発する。
この観点は、メモリスペクトルの周波数領域の特徴を与え、ESNが構造化SSMカーネルをエミュレートするときに明確にする。
論文 参考訳(メタデータ) (2025-09-04T17:42:03Z) - Sequential-Parallel Duality in Prefix Scannable Models [68.39855814099997]
近年では Gated Linear Attention (GLA) や Mamba など様々なモデルが開発されている。
ニアコンスタント時間並列評価と線形時間、定数空間シーケンシャル推論をサポートするニューラルネットワークモデルの全クラスを特徴付けることができるだろうか?
論文 参考訳(メタデータ) (2025-06-12T17:32:02Z) - Scaling Up Liquid-Resistance Liquid-Capacitance Networks for Efficient Sequence Modeling [50.994194925685434]
LrcSSMは$textitnon-linear$リカレントモデルで、現在の線形状態空間層と同じくらい高速に長いシーケンスを処理する。
ヤコビ行列を対角線に強制することにより、全列を並列に解くことができる。
LrcSSMは、Liquid-S4のような他の入力変化系が提供しないことを保証する形式的な勾配安定性を提供する。
論文 参考訳(メタデータ) (2025-05-27T20:02:59Z) - Exemplar-Free Continual Learning for State Space Models [32.73275711666184]
State-Space Models (SSM) は構造化された再帰で長距離の依存関係をキャプチャする。
彼らの進化する内部状態は、継続的学習の下でそれらを適応する上で困難を生じさせる。
Inf-SSMを提案する。
論文 参考訳(メタデータ) (2025-05-24T08:59:13Z) - Provable Benefits of Complex Parameterizations for Structured State Space Models [51.90574950170374]
構造化状態空間モデル (Structured State Space Model, SSM) は、指定された構造に固執する線形力学系である。
パラメータ化が現実の典型的なニューラルネットワークモジュールとは対照的に、SSMは複雑なパラメータ化を使用することが多い。
本稿では,実対角 SSM と複素対角 SSM の形式的ギャップを確立することにより,SSM の複雑なパラメータ化の利点を説明する。
論文 参考訳(メタデータ) (2024-10-17T22:35:50Z) - Enhanced Structured State Space Models via Grouped FIR Filtering and Attention Sink Mechanisms [0.6718184400443239]
本稿では,A-乗算を複数のグループに分解することで課題を軽減する高度なアーキテクチャを提案する。
ストリーミング言語モデルで特定される「アテンションシンク」現象にインスパイアされ、モデルの安定性と性能を高めるための同様のメカニズムを組み込んだ。
論文 参考訳(メタデータ) (2024-08-01T02:49:58Z) - Short-Long Convolutions Help Hardware-Efficient Linear Attention to Focus on Long Sequences [60.489682735061415]
本稿では,状態空間モデルを短時間の畳み込みに置き換えたCHELAを提案する。
提案手法の有効性を示すために,Long Range Arenaベンチマークと言語モデリングタスクについて実験を行った。
論文 参考訳(メタデータ) (2024-06-12T12:12:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。