論文の概要: Rethinking the long-range dependency in Mamba/SSM and transformer models
- arxiv url: http://arxiv.org/abs/2509.04226v1
- Date: Thu, 04 Sep 2025 13:56:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.180455
- Title: Rethinking the long-range dependency in Mamba/SSM and transformer models
- Title(参考訳): Mamba/SSMとトランスモデルにおける長距離依存性の再考
- Authors: Cong Ma, Kayvan Najarian,
- Abstract要約: 我々は,過去の入力に対する隠蔽状態の微分を用いた長距離依存性を数学的に定義する。
本研究では,SSMの長距離依存性は,RNNにおけるメモリ関数の指数的減衰と一致するシーケンス長と指数関数的に一致することを示す。
本稿では,SSMにおける隠れ状態更新のための新しい定式化を提案し,その安定性を標準ガウス分布の下で証明する。
- 参考スコア(独自算出の注目度): 4.7663374197637465
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Long-range dependency is one of the most desired properties of recent sequence models such as state-space models (particularly Mamba) and transformer models. New model architectures are being actively developed and benchmarked for prediction tasks requiring long-range dependency. However, the capability of modeling long-range dependencies of these models has not been investigated from a theoretical perspective, which hinders a systematic improvement on this aspect. In this work, we mathematically define long-range dependency using the derivative of hidden states with respect to past inputs and compare the capability of SSM and transformer models of modeling long-range dependency based on this definition. We showed that the long-range dependency of SSM decays exponentially with the sequence length, which aligns with the exponential decay of memory function in RNN. But the attention mechanism used in transformers is more flexible and is not constrained to exponential decay, which could in theory perform better at modeling long-range dependency with sufficient training data, computing resources, and proper training. To combine the flexibility of long-range dependency of attention mechanism and computation efficiency of SSM, we propose a new formulation for hidden state update in SSM and prove its stability under a standard Gaussian distribution of the input data.
- Abstract(参考訳): 長距離依存性は、状態空間モデル(特にマンバ)やトランスフォーマーモデルのような最近のシーケンスモデルの最も望ましい特性の1つである。
新しいモデルアーキテクチャは、長距離依存を必要とする予測タスクのために積極的に開発され、ベンチマークされている。
しかし、これらのモデルの長距離依存性をモデル化する能力は理論的な観点からは研究されておらず、この側面の体系的な改善を妨げている。
本研究では,過去の入力に対する隠蔽状態の微分を用いた長距離依存性を数学的に定義し,この定義に基づいてSSMと変圧器モデルの性能を比較した。
その結果,SSMの長距離依存性はシーケンス長と指数的に一致し,RNNのメモリ関数の指数的減衰と一致することがわかった。
しかし、変圧器で使用される注意機構はより柔軟であり、指数関数的減衰に制約されないため、理論上は十分なトレーニングデータ、計算資源、適切なトレーニングで長距離依存をモデル化する能力が向上する可能性がある。
注意機構の長距離依存性とSSMの計算効率の柔軟性を組み合わせるために,SSMにおける隠れ状態更新のための新しい定式化を提案し,入力データの標準ガウス分布の下でその安定性を証明した。
関連論文リスト
- Oscillatory State-Space Models [61.923849241099184]
長いシーケンスを効率的に学習するための線形状態空間モデル(LinOSS)を提案する。
高速な連想並列スキャンを用いて時間とともに統合された安定な離散化により、提案した状態空間モデルが得られる。
我々はLinOSSが普遍であること、すなわち時間変化関数間の連続および因果作用素写像を近似できることを示す。
論文 参考訳(メタデータ) (2024-10-04T22:00:13Z) - Mamba or Transformer for Time Series Forecasting? Mixture of Universals (MoU) Is All You Need [28.301119776877822]
時系列予測には、正確な予測のために短期と長期の依存関係のバランスが必要である。
変換器は長期依存のモデリングに優れているが、2次計算コストで批判されている。
Mambaは、ほぼ直線的な代替手段を提供するが、潜在的な情報損失のため、時系列の長期予測では効果が低いと報告されている。
論文 参考訳(メタデータ) (2024-08-28T17:59:27Z) - SDE: A Simplified and Disentangled Dependency Encoding Framework for State Space Models in Time Series Forecasting [8.841699904757506]
精度予測の基本となる3つの重要な依存関係を特定し,正式に定義する。
SDE(Simplified and Disentangled Dependency entangle)は,時系列予測におけるSSMの能力向上を目的とした新しいフレームワークである。
論文 参考訳(メタデータ) (2024-08-22T02:14:59Z) - CMamba: Channel Correlation Enhanced State Space Models for Multivariate Time Series Forecasting [18.50360049235537]
ステートスペースモデルであるMambaは、堅牢なシーケンスと機能ミキシング機能を備えている。
チャネル間の依存関係のキャプチャは、時系列予測のパフォーマンス向上に不可欠である。
時系列予測に適した改良されたマンバ変種を導入する。
論文 参考訳(メタデータ) (2024-06-08T01:32:44Z) - LongVQ: Long Sequence Modeling with Vector Quantization on Structured Memory [63.41820940103348]
自己保持機構の計算コストは、長いシーケンスの実用性を制限する。
我々はLongVQと呼ばれる新しい手法を提案し、長さ固定されたコードブックとしてグローバルな抽象化を圧縮する。
LongVQは動的グローバルパターンとローカルパターンを効果的に維持し、長距離依存性の問題の欠如を補うのに役立つ。
論文 参考訳(メタデータ) (2024-04-17T08:26:34Z) - Rough Transformers for Continuous and Efficient Time-Series Modelling [46.58170057001437]
実世界の医療環境における時系列データは、典型的には長距離依存を示し、一様でない間隔で観察される。
本稿では,入力シーケンスの連続時間表現で動作するトランスフォーマーモデルのバリエーションであるRough Transformerを紹介する。
Rough Transformersは、Neural ODEベースのモデルの利点を得ながら、バニラアテンションを一貫して上回ります。
論文 参考訳(メタデータ) (2024-03-15T13:29:45Z) - FCDNet: Frequency-Guided Complementary Dependency Modeling for
Multivariate Time-Series Forecasting [9.083469629116784]
時系列予測のための簡潔で効果的なフレームワークであるFCDNetを提案する。
多レベル周波数パターンから長期的および短期的依存情報を適応的に抽出する。
実験の結果、FCDNetは強いベースラインをはるかに超えることがわかった。
論文 参考訳(メタデータ) (2023-12-27T07:29:52Z) - Closed-form Continuous-Depth Models [99.40335716948101]
連続深度ニューラルモデルは高度な数値微分方程式解法に依存している。
我々は,CfCネットワークと呼ばれる,記述が簡単で,少なくとも1桁高速な新しいモデル群を提示する。
論文 参考訳(メタデータ) (2021-06-25T22:08:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。