論文の概要: Bridging Expressivity and Scalability with Adaptive Unitary SSMs
- arxiv url: http://arxiv.org/abs/2507.05238v1
- Date: Mon, 07 Jul 2025 17:47:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.54981
- Title: Bridging Expressivity and Scalability with Adaptive Unitary SSMs
- Title(参考訳): Adaptive Unitary SSMによるブリッジ表現性とスケーラビリティ
- Authors: Arjun Karuvally, Franz Nowak, Anderson T. Keller, Carmen Amo Alonso, Terrence J. Sejnowski, Hava T. Siegelmann,
- Abstract要約: 適応ユニタリ状態空間モデル(AUSSM)は、一様進化と高表現力を達成するために、スキュー対称で入力依存の再現性を持つ新しいSSMのクラスである。
この結果から,適応的ユニタリ再帰は,記号的および連続的シーケンスモデリングの両方において,強力かつ効率的なアルゴリズムバイアスを与えることが示された。
- 参考スコア(独自算出の注目度): 4.61803711540329
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent work has revealed that state space models (SSMs), while efficient for long-sequence processing, are fundamentally limited in their ability to represent formal languages particularly due to time-invariant and real-valued recurrence structures. In this work, we draw inspiration from adaptive and structured dynamics observed in biological neural systems and introduce the Adaptive Unitary State Space Model (AUSSM)- a novel class of SSMs that leverages skew-symmetric, input-dependent recurrence to achieve unitary evolution and high expressive power. Using algebraic automata theory, we prove that AUSSM can perform modulo counting and simulate solvable group automata at finite precision, enabling SSMs to model a broad class of regular languages that are out of reach for other SSM architectures. To overcome the practical inefficiencies of adaptive recurrence, we develop a separable convolution formulation and a CUDA implementation that enables scalable parallel training. Empirically, we show that AUSSM when interleaved with Mamba outperform prior SSMs on formal algorithmic tasks such as parity and modular arithmetic, and achieve competent performance on real-world long time-series classification benchmarks. Our results demonstrate that adaptive unitary recurrence provides a powerful and efficient inductive bias for both symbolic and continuous sequence modeling.
- Abstract(参考訳): 最近の研究により、状態空間モデル(SSM)は、長いシーケンス処理に効率的であるが、特に時間不変かつ実数値の反復構造のために、形式言語を表現する能力が根本的に制限されていることが明らかになった。
本研究では,生体神経系で観測される適応的・構造的ダイナミクスからインスピレーションを得て,一様進化と高表現力を達成するために,スキュー対称性,入力依存の再現性を活用する新しいSSMのクラスであるAdaptive Unitary State Space Model (AUSSM)を導入する。
代数的オートマトン理論を用いて、AUSSMが有限精度で可解群オートマトンをモジュロカウントしシミュレートできることを証明し、SSMが他のSSMアーキテクチャには及ばない幅広い正規言語のクラスをモデル化できるようにする。
適応的再帰の実用的非効率を克服するために,拡張性のある並列トレーニングを実現する分離可能な畳み込み形式とCUDA実装を開発した。
経験的に、MambaとインターリーブしたAUSSMは、パリティやモジュラー演算といった形式的なアルゴリズムタスクにおいて、事前のSSMよりも優れており、実世界の時系列分類ベンチマークにおいて有能な性能を発揮する。
この結果から,適応的ユニタリ回帰は,記号的および連続的シーケンスモデリングの両方において,強力かつ効率的な帰納的バイアスを与えることが示された。
関連論文リスト
- Longhorn: State Space Models are Amortized Online Learners [51.10124201221601]
ステートスペースモデル(SSM)は、トレーニング中に並列性を維持しながら線形デコード効率を提供する。
本研究では、オンライン学習のレンズを通してSSM設計を探求し、特定のオンライン学習問題のメタモジュールとしてSSMを概念化する。
我々は、オンライン連想的リコール問題を解決するためのクローズドフォームソリューションに類似した、新しいディープSSMアーキテクチャであるLonghornを紹介した。
論文 参考訳(メタデータ) (2024-07-19T11:12:08Z) - Sparse Modular Activation for Efficient Sequence Modeling [94.11125833685583]
線形状態空間モデルと自己アテンション機構を組み合わせた最近のモデルでは、様々なシーケンスモデリングタスクにおいて顕著な結果が示されている。
現在のアプローチでは、アテンションモジュールを静的かつ均一に入力シーケンスのすべての要素に適用し、最適以下の品質効率のトレードオフをもたらす。
SMA(Sparse Modular Activation)は,ニューラルネットワークが配列要素のサブモジュールを異なる方法でスパースに活性化する機構である。
論文 参考訳(メタデータ) (2023-06-19T23:10:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。