論文の概要: Analysis of Long Range Dependency Understanding in State Space Models
- arxiv url: http://arxiv.org/abs/2601.13048v1
- Date: Mon, 19 Jan 2026 13:39:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.914581
- Title: Analysis of Long Range Dependency Understanding in State Space Models
- Title(参考訳): 状態空間モデルにおける長距離依存理解の解析
- Authors: Srividya Ravikumar, Abhinav Anand, Shweta Verma, Mira Mezini,
- Abstract要約: 実世界のタスクで訓練された対角化状態空間モデル(S4D)の、最初の体系的カーネル解釈可能性の研究について述べる。
S4Dの長距離モデリング能力は、異なるモデルアーキテクチャの下で大きく異なり、モデル性能に影響を及ぼすことを示す。
- 参考スコア(独自算出の注目度): 5.1981024469718315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although state-space models (SSMs) have demonstrated strong performance on long-sequence benchmarks, most research has emphasized predictive accuracy rather than interpretability. In this work, we present the first systematic kernel interpretability study of the diagonalized state-space model (S4D) trained on a real-world task (vulnerability detection in source code). Through time and frequency domain analysis of the S4D kernel, we show that the long-range modeling capability of S4D varies significantly under different model architectures, affecting model performance. For instance, we show that the depending on the architecture, S4D kernel can behave as low-pass, band-pass or high-pass filter. The insights from our analysis can guide future work in designing better S4D-based models.
- Abstract(参考訳): 状態空間モデル(SSM)は、長いシーケンスのベンチマークで強い性能を示しているが、ほとんどの研究は解釈可能性よりも予測精度を強調している。
本研究では,実世界のタスクで訓練された対角化状態空間モデル(S4D)の最初の体系的カーネル解釈可能性について述べる。
S4Dカーネルの時間領域解析と周波数領域解析により、S4Dの長距離モデリング能力は異なるモデルアーキテクチャの下で大きく変化し、モデル性能に影響を及ぼすことを示した。
例えば、アーキテクチャによっては、S4Dカーネルはローパス、バンドパス、ハイパスフィルタとして振る舞うことができる。
我々の分析から得られた洞察は、より優れたS4Dモデルの設計における今後の取り組みを導くことができる。
関連論文リスト
- Model Compression Method for S4 with Diagonal State Space Layers using Balanced Truncation [0.0]
本稿では, モデル圧縮手法として, 事前学習したS4モデルのDSS層に適用した, 制御理論における一般的なモデル縮小手法であるバランストランケーションを提案する。
数値実験により,従来のSkiw-HiPPOを用いたモデルよりも,トレーニングモデルとバランスの取れたトランケーションが優れていることが示された。
論文 参考訳(メタデータ) (2024-02-25T05:22:45Z) - Never Train from Scratch: Fair Comparison of Long-Sequence Models Requires Data-Driven Priors [44.5740422079]
標準的なデノベーション目的による事前トレーニングは、複数のアーキテクチャで劇的に向上することを示す。
先行研究とは対照的に、適切に事前訓練された場合の長距離アリーナでのS4の性能に適合するバニラトランスフォーマーが見つかる。
論文 参考訳(メタデータ) (2023-10-04T17:17:06Z) - Robustifying State-space Models for Long Sequences via Approximate
Diagonalization [47.321212977509454]
状態空間モデル(SSM)は、長距離シーケンスタスクを学習するためのフレームワークとして登場した。
HiPPOフレームワークの対角化は、それ自体が不適切な問題である。
本稿では,汎用的,後方安定な「摂動対角化(PTD)」手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T23:36:13Z) - Structured State Space Models for In-Context Reinforcement Learning [30.189834820419446]
構造化状態空間列(S4)モデルは、最近、長距離シーケンスモデリングタスクにおいて最先端の性能を達成した。
隠れた状態を並列に初期化およびリセットできるS4の変種に対する修正を提案する。
変更したアーキテクチャはシーケンス長のTransformerよりも高速に動作し、単純なメモリベースのタスクでRNNよりもパフォーマンスがよいことを示す。
論文 参考訳(メタデータ) (2023-03-07T15:32:18Z) - Deep Latent State Space Models for Time-Series Generation [68.45746489575032]
状態空間ODEに従って進化する潜伏変数を持つ列の生成モデルLS4を提案する。
近年の深層状態空間モデル(S4)に着想を得て,LS4の畳み込み表現を利用して高速化を実現する。
LS4は, 実世界のデータセット上での限界分布, 分類, 予測スコアにおいて, 従来の連続時間生成モデルよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-24T15:17:42Z) - Liquid Structural State-Space Models [106.74783377913433]
Liquid-S4はLong-Range Arenaベンチマークで平均87.32%の性能を達成した。
全生音声コマンド認識では、データセットLiquid-S4は96.78%の精度で、S4と比較してパラメータ数が30%減少している。
論文 参考訳(メタデータ) (2022-09-26T18:37:13Z) - Long Range Language Modeling via Gated State Spaces [67.64091993846269]
本稿では,英語書籍,Githubソースコード,ArXiv数学論文の自己回帰シーケンスモデリングに焦点をあてる。
Gated State Space (GSS) と呼ばれる新しい層を提案し、S4の対角線よりもかなり高速に訓練可能であることを示す。
論文 参考訳(メタデータ) (2022-06-27T01:50:18Z) - On the Parameterization and Initialization of Diagonal State Space
Models [35.68370606343843]
対角状態空間モデルのパラメータ化と初期化について述べる。
S4の行列の対角制限は、無限状態次元の極限において、驚くほど同じカーネルを回復することを示す。
論文 参考訳(メタデータ) (2022-06-23T17:58:39Z) - Diagonal State Spaces are as Effective as Structured State Spaces [3.8276199743296906]
音声コマンドのデータセット上での音声分類は、概念的にシンプルで実装が容易でありながら、Long Range Arenaタスク上でのS4のパフォーマンスと一致することを示す。
本研究は,低ランク補正を伴わずともS4の性能に一致できることを示し,状態行列を対角線と仮定する。
論文 参考訳(メタデータ) (2022-03-27T16:30:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。