論文の概要: Bridging Expressivity and Scalability with Adaptive Unitary SSMs
- arxiv url: http://arxiv.org/abs/2507.05238v1
- Date: Mon, 07 Jul 2025 17:47:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.54981
- Title: Bridging Expressivity and Scalability with Adaptive Unitary SSMs
- Title(参考訳): Adaptive Unitary SSMによるブリッジ表現性とスケーラビリティ
- Authors: Arjun Karuvally, Franz Nowak, Anderson T. Keller, Carmen Amo Alonso, Terrence J. Sejnowski, Hava T. Siegelmann,
- Abstract要約: 適応ユニタリ状態空間モデル(AUSSM)は、一様進化と高表現力を達成するために、スキュー対称で入力依存の再現性を持つ新しいSSMのクラスである。
この結果から,適応的ユニタリ再帰は,記号的および連続的シーケンスモデリングの両方において,強力かつ効率的なアルゴリズムバイアスを与えることが示された。
- 参考スコア(独自算出の注目度): 4.61803711540329
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent work has revealed that state space models (SSMs), while efficient for long-sequence processing, are fundamentally limited in their ability to represent formal languages particularly due to time-invariant and real-valued recurrence structures. In this work, we draw inspiration from adaptive and structured dynamics observed in biological neural systems and introduce the Adaptive Unitary State Space Model (AUSSM)- a novel class of SSMs that leverages skew-symmetric, input-dependent recurrence to achieve unitary evolution and high expressive power. Using algebraic automata theory, we prove that AUSSM can perform modulo counting and simulate solvable group automata at finite precision, enabling SSMs to model a broad class of regular languages that are out of reach for other SSM architectures. To overcome the practical inefficiencies of adaptive recurrence, we develop a separable convolution formulation and a CUDA implementation that enables scalable parallel training. Empirically, we show that AUSSM when interleaved with Mamba outperform prior SSMs on formal algorithmic tasks such as parity and modular arithmetic, and achieve competent performance on real-world long time-series classification benchmarks. Our results demonstrate that adaptive unitary recurrence provides a powerful and efficient inductive bias for both symbolic and continuous sequence modeling.
- Abstract(参考訳): 最近の研究により、状態空間モデル(SSM)は、長いシーケンス処理に効率的であるが、特に時間不変かつ実数値の反復構造のために、形式言語を表現する能力が根本的に制限されていることが明らかになった。
本研究では,生体神経系で観測される適応的・構造的ダイナミクスからインスピレーションを得て,一様進化と高表現力を達成するために,スキュー対称性,入力依存の再現性を活用する新しいSSMのクラスであるAdaptive Unitary State Space Model (AUSSM)を導入する。
代数的オートマトン理論を用いて、AUSSMが有限精度で可解群オートマトンをモジュロカウントしシミュレートできることを証明し、SSMが他のSSMアーキテクチャには及ばない幅広い正規言語のクラスをモデル化できるようにする。
適応的再帰の実用的非効率を克服するために,拡張性のある並列トレーニングを実現する分離可能な畳み込み形式とCUDA実装を開発した。
経験的に、MambaとインターリーブしたAUSSMは、パリティやモジュラー演算といった形式的なアルゴリズムタスクにおいて、事前のSSMよりも優れており、実世界の時系列分類ベンチマークにおいて有能な性能を発揮する。
この結果から,適応的ユニタリ回帰は,記号的および連続的シーケンスモデリングの両方において,強力かつ効率的な帰納的バイアスを与えることが示された。
関連論文リスト
- Sequential-Parallel Duality in Prefix Scannable Models [68.39855814099997]
近年では Gated Linear Attention (GLA) や Mamba など様々なモデルが開発されている。
ニアコンスタント時間並列評価と線形時間、定数空間シーケンシャル推論をサポートするニューラルネットワークモデルの全クラスを特徴付けることができるだろうか?
論文 参考訳(メタデータ) (2025-06-12T17:32:02Z) - Message-Passing State-Space Models: Improving Graph Learning with Modern Sequence Modeling [19.10832920407789]
我々は、メッセージパッシングニューラルネットワークフレームワークに直接、現代のSSMの鍵となる原則を組み込むことによって、新しい視点を導入する。
我々は,MP-SSMを用いて,メッセージパッシングのアーキテクチャ的単純さを保ちながら,効率よく,順列同変かつ長距離情報伝達を可能にする。
論文 参考訳(メタデータ) (2025-05-24T14:53:07Z) - Exemplar-Free Continual Learning for State Space Models [32.73275711666184]
State-Space Models (SSM) は構造化された再帰で長距離の依存関係をキャプチャする。
彼らの進化する内部状態は、継続的学習の下でそれらを適応する上で困難を生じさせる。
Inf-SSMを提案する。
論文 参考訳(メタデータ) (2025-05-24T08:59:13Z) - Efficient Transformed Gaussian Process State-Space Models for Non-Stationary High-Dimensional Dynamical Systems [49.819436680336786]
本研究では,高次元非定常力学系のスケーラブルかつ柔軟なモデリングのための効率的な変換ガウス過程状態空間モデル(ETGPSSM)を提案する。
具体的には、ETGPSSMは、単一の共有GPと入力依存の正規化フローを統合し、複雑な非定常遷移ダイナミクスを捉える前に、表現的な暗黙のプロセスを生成する。
ETGPSSMは、計算効率と精度の観点から、既存のGPSSMとニューラルネットワークベースのSSMより優れています。
論文 参考訳(メタデータ) (2025-03-24T03:19:45Z) - From S4 to Mamba: A Comprehensive Survey on Structured State Space Models [0.0]
シーケンスモデリングの最近の進歩は、構造化状態空間モデル(Structured State Space Models, SSMs)の出現につながっている。
SSMは構造的再帰と状態空間表現を利用して、線形またはニア線形複雑度で優れたロングシーケンス処理を実現する。
この調査は、AIとディープラーニングにおけるSSMベースのアーキテクチャの進歩、トレードオフ、今後の方向性を詳述した、研究者や実践者の構造化ガイドとして機能する。
論文 参考訳(メタデータ) (2025-03-22T01:55:32Z) - DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [70.91804882618243]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。
我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。
LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:37:26Z) - On the Expressiveness and Length Generalization of Selective State-Space Models on Regular Languages [56.22289522687125]
SSM(Selective State-space Model)はTransformerの代替品である。
正規言語タスクにおける表現性や長さの一般化性能を解析する。
本稿では,Selective Dense State-Space Model (SD-SSM)を紹介する。
論文 参考訳(メタデータ) (2024-12-26T20:53:04Z) - Longhorn: State Space Models are Amortized Online Learners [51.10124201221601]
ステートスペースモデル(SSM)は、トレーニング中に並列性を維持しながら線形デコード効率を提供する。
本研究では、オンライン学習のレンズを通してSSM設計を探求し、特定のオンライン学習問題のメタモジュールとしてSSMを概念化する。
我々は、オンライン連想的リコール問題を解決するためのクローズドフォームソリューションに類似した、新しいディープSSMアーキテクチャであるLonghornを紹介した。
論文 参考訳(メタデータ) (2024-07-19T11:12:08Z) - Theoretical Foundations of Deep Selective State-Space Models [13.971499161967083]
ディープSSMは、さまざまなドメインセットで優れたパフォーマンスを示す。
最近の研究で、線形リカレンス電力が入力と隠れ状態の間の乗法的相互作用を可能にすることが示されている。
ランダム線形再帰が単純な入力制御遷移を備える場合、隠れ状態は強力な数学的対象の低次元射影であることを示す。
論文 参考訳(メタデータ) (2024-02-29T11:20:16Z) - Online Variational Sequential Monte Carlo [49.97673761305336]
我々は,計算効率が高く正確なモデルパラメータ推定とベイジアン潜在状態推定を提供する変分連続モンテカルロ法(VSMC)を構築した。
オンラインVSMCは、パラメータ推定と粒子提案適応の両方を効率よく、完全にオンザフライで実行することができる。
論文 参考訳(メタデータ) (2023-12-19T21:45:38Z) - Sparse Modular Activation for Efficient Sequence Modeling [94.11125833685583]
線形状態空間モデルと自己アテンション機構を組み合わせた最近のモデルでは、様々なシーケンスモデリングタスクにおいて顕著な結果が示されている。
現在のアプローチでは、アテンションモジュールを静的かつ均一に入力シーケンスのすべての要素に適用し、最適以下の品質効率のトレードオフをもたらす。
SMA(Sparse Modular Activation)は,ニューラルネットワークが配列要素のサブモジュールを異なる方法でスパースに活性化する機構である。
論文 参考訳(メタデータ) (2023-06-19T23:10:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。