論文の概要: Structured Sparse Transition Matrices to Enable State Tracking in State-Space Models
- arxiv url: http://arxiv.org/abs/2509.22284v2
- Date: Tue, 07 Oct 2025 14:10:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 15:38:21.677051
- Title: Structured Sparse Transition Matrices to Enable State Tracking in State-Space Models
- Title(参考訳): 状態空間モデルにおける状態追跡を可能にする構造的スパース遷移行列
- Authors: Aleksandar Terzić, Nicolas Menet, Michael Hersche, Thomas Hofmann, Abbas Rahimi,
- Abstract要約: 状態空間モデル(SSM)における遷移行列の構造的スパースパラメトリゼーションを提案する。
我々の方法PD-SSMは、遷移行列をカラム1ホット行列(P$)と複素数値対角行列(D$)の積としてパラメータ化する。
このモデルは、様々なFSA状態追跡タスクにおいて、現代のSSMの多種多様なバリエーションを著しく上回っている。
- 参考スコア(独自算出の注目度): 68.31088463716269
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern state-space models (SSMs) often utilize transition matrices which enable efficient computation but pose restrictions on the model's expressivity, as measured in terms of the ability to emulate finite-state automata (FSA). While unstructured transition matrices are optimal in terms of expressivity, they come at a prohibitively high compute and memory cost even for moderate state sizes. We propose a structured sparse parametrization of transition matrices in SSMs that enables FSA state tracking with optimal state size and depth, while keeping the computational cost of the recurrence comparable to that of diagonal SSMs. Our method, PD-SSM, parametrizes the transition matrix as the product of a column one-hot matrix ($P$) and a complex-valued diagonal matrix ($D$). Consequently, the computational cost of parallel scans scales linearly with the state size. Theoretically, the model is BIBO-stable and can emulate any $N$-state FSA with one layer of dimension $N$ and a linear readout of size $N \times N$, significantly improving on all current structured SSM guarantees. Experimentally, the model significantly outperforms a wide collection of modern SSM variants on various FSA state tracking tasks. On multiclass time-series classification, the performance is comparable to that of neural controlled differential equations, a paradigm explicitly built for time-series analysis. Finally, we integrate PD-SSM into a hybrid Transformer-SSM architecture and demonstrate that the model can effectively track the states of a complex FSA in which transitions are encoded as a set of variable-length English sentences. The code is available at https://github.com/IBM/expressive-sparse-state-space-model
- Abstract(参考訳): 現代の状態空間モデル(SSM)は、有限状態オートマトン(FSA)をエミュレートする能力によって測定されるように、効率的な計算を可能にするが、モデルの表現性を制限する遷移行列を利用することが多い。
非構造遷移行列は表現性の観点からは最適であるが、中程度の状態サイズであっても計算コストとメモリコストは極めて高い。
対角SSMに匹敵する繰り返しの計算コストを維持しつつ、最適な状態サイズと深さでFSA状態の追跡を可能にするSSMにおける遷移行列の構造化されたスパースパラメトリゼーションを提案する。
PD-SSM法は、遷移行列をカラム1ホット行列(P$)と複素数値対角行列(D$)の積としてパラメータ化する。
したがって、並列スキャンの計算コストは状態サイズと線形にスケールする。
理論的には、モデルはBIBO安定であり、任意の$N$状態FSAを次元$N$の1層でエミュレートすることができ、また、N$の線形読み出しも可能である。
実験的に、このモデルは様々なFSA状態追跡タスクにおいて、現代のSSMの幅広いバリエーションよりも大幅に優れている。
マルチクラスの時系列分類では、その性能は時間系列解析のために明示的に構築されたパラダイムである神経制御微分方程式に匹敵する。
最後に、PD-SSMをハイブリッドトランスフォーマー-SSMアーキテクチャに統合し、変換が可変長の英文の集合として符号化される複雑なFSAの状態を追跡することを実証する。
コードはhttps://github.com/IBM/ Expressive-sparse-state-space-modelで公開されている。
関連論文リスト
- Scaling Up Liquid-Resistance Liquid-Capacitance Networks for Efficient Sequence Modeling [50.994194925685434]
LrcSSMは$textitnon-linear$リカレントモデルで、現在の線形状態空間層と同じくらい高速に長いシーケンスを処理する。
ヤコビ行列を対角線に強制することにより、全列を並列に解くことができる。
LrcSSMは、Liquid-S4のような他の入力変化系が提供しないことを保証する形式的な勾配安定性を提供する。
論文 参考訳(メタデータ) (2025-05-27T20:02:59Z) - FedSVD: Adaptive Orthogonalization for Private Federated Learning with LoRA [61.79405341803085]
低ランク適応(LoRA)は、フェデレートラーニング(FL)における言語モデルの効率的な微調整に広く用いられている。
低ランク適応(LoRA)は、フェデレートラーニング(FL)における言語モデルの効率的な微調整に広く用いられている。
論文 参考訳(メタデータ) (2025-05-19T07:32:56Z) - On the Expressiveness and Length Generalization of Selective State-Space Models on Regular Languages [56.22289522687125]
SSM(Selective State-space Model)はTransformerの代替品である。
正規言語タスクにおける表現性や長さの一般化性能を解析する。
本稿では,Selective Dense State-Space Model (SD-SSM)を紹介する。
論文 参考訳(メタデータ) (2024-12-26T20:53:04Z) - Distributed Representations Enable Robust Multi-Timescale Symbolic Computation in Neuromorphic Hardware [3.961418890143814]
本稿では,ロバストなマルチスケールダイナミックスをアトラクタベースRSNNに組み込むシングルショット重み学習方式について述べる。
対称自己解離重み行列を重畳することにより、有限状態機械をRSNN力学に組み込む。
この研究は、リカレントダイナミクスによる堅牢な記号計算をニューロモルフィックハードウェアに組み込むスケーラブルなアプローチを導入している。
論文 参考訳(メタデータ) (2024-05-02T14:11:50Z) - Efficiently Modeling Long Sequences with Structured State Spaces [15.456254157293836]
本稿では,基本状態空間モデルに対する新しいパラメータ化に基づく新しいシーケンスモデルを提案する。
S4は、(i)データ拡張や補助損失を伴わないシーケンシャルCIFAR-10での91%の精度を含む、より大規模な2次元ResNetと同等の、さまざまな確立されたベンチマークで強力な実験結果を得る。
論文 参考訳(メタデータ) (2021-10-31T03:32:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。