論文の概要: Provable Benefits of Complex Parameterizations for Structured State Space Models
- arxiv url: http://arxiv.org/abs/2410.14067v1
- Date: Thu, 17 Oct 2024 22:35:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:27:26.744006
- Title: Provable Benefits of Complex Parameterizations for Structured State Space Models
- Title(参考訳): 構造化状態空間モデルに対する複素パラメータ化の確率的利点
- Authors: Yuval Ran-Milo, Eden Lumbroso, Edo Cohen-Karlik, Raja Giryes, Amir Globerson, Nadav Cohen,
- Abstract要約: 構造化状態空間モデル (Structured State Space Model, SSM) は、指定された構造に固執する線形力学系である。
パラメータ化が現実の典型的なニューラルネットワークモジュールとは対照的に、SSMは複雑なパラメータ化を使用することが多い。
本稿では,実対角 SSM と複素対角 SSM の形式的ギャップを確立することにより,SSM の複雑なパラメータ化の利点を説明する。
- 参考スコア(独自算出の注目度): 51.90574950170374
- License:
- Abstract: Structured state space models (SSMs), the core engine behind prominent neural networks such as S4 and Mamba, are linear dynamical systems adhering to a specified structure, most notably diagonal. In contrast to typical neural network modules, whose parameterizations are real, SSMs often use complex parameterizations. Theoretically explaining the benefits of complex parameterizations for SSMs is an open problem. The current paper takes a step towards its resolution, by establishing formal gaps between real and complex diagonal SSMs. Firstly, we prove that while a moderate dimension suffices in order for a complex SSM to express all mappings of a real SSM, a much higher dimension is needed for a real SSM to express mappings of a complex SSM. Secondly, we prove that even if the dimension of a real SSM is high enough to express a given mapping, typically, doing so requires the parameters of the real SSM to hold exponentially large values, which cannot be learned in practice. In contrast, a complex SSM can express any given mapping with moderate parameter values. Experiments corroborate our theory, and suggest a potential extension of the theory that accounts for selectivity, a new architectural feature yielding state of the art performance.
- Abstract(参考訳): S4やMambaのような著名なニューラルネットワークを支えるコアエンジンであるStructured State Space Model (SSM) は、特定の構造、特に対角線に固執する線形力学系である。
パラメータ化が現実の典型的なニューラルネットワークモジュールとは対照的に、SSMは複雑なパラメータ化を使用することが多い。
理論的には、SSMに対する複素パラメタライゼーションの利点を説明することは、オープンな問題である。
本論文は, 実対角 SSM と複素対角 SSM の形式的ギャップを確立することにより, その解決に向けた一歩を踏み出したものである。
まず、複素 SSM が実 SSM のすべての写像を表現するのに適度な次元が十分であるのに対して、実 SSM が複素 SSM の写像を表現するのにはるかに高い次元が必要であることを証明する。
第二に、実 SSM の次元が与えられた写像を表現するのに十分高いとしても、そのような場合、実 SSM のパラメータは指数関数的に大きな値を保持する必要があり、実際は学習できない。
対照的に、複雑なSSMは任意のマッピングを適度なパラメータ値で表現することができる。
実験は我々の理論を裏付け、選択性を説明する理論の潜在的な拡張を示唆する。
関連論文リスト
- Empowering Snapshot Compressive Imaging: Spatial-Spectral State Space Model with Across-Scanning and Local Enhancement [51.557804095896174]
AsLE-SSMという,グローバルな局所的バランスの取れたコンテキストエンコーディングとチャネル間相互作用の促進に空間スペクトルSSMを用いる状態空間モデルを導入する。
実験の結果,ASLE-SSMは既存の最先端手法よりも優れており,推定速度はTransformerベースのMSTより2.4倍速く,パラメータの0.12(M)を節約できることがわかった。
論文 参考訳(メタデータ) (2024-08-01T15:14:10Z) - KalMamba: Towards Efficient Probabilistic State Space Models for RL under Uncertainty [18.611360495409087]
確率的状態空間モデル(SSM)は、制御のための簡潔な表現を提供するため、高次元部分的な情報から強化学習(RL)に不可欠である。
本稿では,確率的SSMの強度と決定論的SSMのスケーラビリティを組み合わせたRLの表現を効率よく学習するKalMambaを提案する。
論文 参考訳(メタデータ) (2024-06-21T13:27:36Z) - SMR: State Memory Replay for Long Sequence Modeling [19.755738298836526]
本稿では並列畳み込み計算における互換性の限界を克服する新しい非再帰的非一様サンプル処理戦略を提案する。
本研究では,学習可能な記憶を利用する状態記憶再生(SMR)を導入し,学習データと異なるサンプリングポイントでの一般化のために,現在の状態を多段階情報で調整する。
自己回帰言語モデリングとLong Range Arenaにおける長距離モデリングタスクの実験は、一連のSSMモデルに対するSMRメカニズムの一般的な効果を実証している。
論文 参考訳(メタデータ) (2024-05-27T17:53:32Z) - The Expressive Capacity of State Space Models: A Formal Language Perspective [0.8948475969696075]
線形状態空間モデル(SSM)に基づくリカレントモデルは、言語モデリング(LM)において有望な性能を示した。
本稿では,変換器や従来のRNNと比較して,そのようなSSMの容量に関する包括的理論的研究を行う。
論文 参考訳(メタデータ) (2024-05-27T17:46:57Z) - HOPE for a Robust Parameterization of Long-memory State Space Models [51.66430224089725]
線形時間不変(LTI)システムを利用する状態空間モデル(SSM)は、長いシーケンスの学習において有効であることが知られている。
我々は,ハンケル作用素内のマルコフパラメータを利用するLTIシステムに対して,HOPEと呼ばれる新しいパラメータ化手法を開発した。
我々の新しいパラメータ化は、固定時間ウィンドウ内に非遅延メモリを付与し、パッドドノイズのあるシーケンシャルCIFAR-10タスクによって実証的に相関する。
論文 参考訳(メタデータ) (2024-05-22T20:20:14Z) - Frequency-Assisted Mamba for Remote Sensing Image Super-Resolution [49.902047563260496]
我々は、リモートセンシング画像(RSI)の超高解像度化のために、視覚状態空間モデル(Mamba)を統合するための最初の試みを開発した。
より優れたSR再構築を実現するため,FMSRと呼ばれる周波数支援型Mambaフレームワークを考案した。
我々のFMSRは、周波数選択モジュール(FSM)、ビジョン状態空間モジュール(VSSM)、ハイブリッドゲートモジュール(HGM)を備えた多層融合アーキテクチャを備えている。
論文 参考訳(メタデータ) (2024-05-08T11:09:24Z) - Theoretical Foundations of Deep Selective State-Space Models [13.971499161967083]
ディープSSMは、さまざまなドメインセットで優れたパフォーマンスを示す。
最近の研究で、線形リカレンス電力が入力と隠れ状態の間の乗法的相互作用を可能にすることが示されている。
ランダム線形再帰が単純な入力制御遷移を備える場合、隠れ状態は強力な数学的対象の低次元射影であることを示す。
論文 参考訳(メタデータ) (2024-02-29T11:20:16Z) - Beyond Fully-Connected Layers with Quaternions: Parameterization of
Hypercomplex Multiplications with $1/n$ Parameters [71.09633069060342]
モデルが事前に定義されているかどうかにかかわらず、データから乗算ルールを学習できるように、ハイパーコンプレックス乗算のパラメータ化を提案する。
我々の手法はハミルトン積を仮定するだけでなく、任意の nD 超複素空間上での操作も学んでいる。
論文 参考訳(メタデータ) (2021-02-17T06:16:58Z) - Provably Efficient Neural Estimation of Structural Equation Model: An
Adversarial Approach [144.21892195917758]
一般化構造方程式モデル(SEM)のクラスにおける推定について検討する。
線形作用素方程式をmin-maxゲームとして定式化し、ニューラルネットワーク(NN)でパラメータ化し、勾配勾配を用いてニューラルネットワークのパラメータを学習する。
提案手法は,サンプル分割を必要とせず,確固とした収束性を持つNNをベースとしたSEMの抽出可能な推定手順を初めて提供する。
論文 参考訳(メタデータ) (2020-07-02T17:55:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。