論文の概要: How Many Heads Make an SSM? A Unified Framework for Attention and State Space Models
- arxiv url: http://arxiv.org/abs/2512.15115v1
- Date: Wed, 17 Dec 2025 06:15:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.872127
- Title: How Many Heads Make an SSM? A Unified Framework for Attention and State Space Models
- Title(参考訳): いくつの頭がSSMを作るか? 注意と状態空間モデルのための統一フレームワーク
- Authors: Ali Ghodsi,
- Abstract要約: 我々は、入力依存の効果的な相互作用演算子$W_ij(X)$を介して、幅広いシーケンスマップのクラスを表す統一されたフレームワークを導入する。
我々は、多頭部分解クラスにおいて、ラグ作用素が長さ-n$要求上の$k$次元部分空間にまたがる線形SSMを表現し、$H=k$ヘッドで達成可能であることを示す同値 (Head-Count) 定理を証明した。
- 参考スコア(独自算出の注目度): 2.1693096503777003
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sequence modeling has produced diverse architectures -- from classical recurrent neural networks to modern Transformers and state space models (SSMs) -- yet a unified theoretical understanding of expressivity and trainability trade-offs remains limited. We introduce a unified framework that represents a broad class of sequence maps via an input-dependent effective interaction operator $W_{ij}(X)$, making explicit two recurring construction patterns: (i) the Unified Factorized Framework (Explicit) (attention-style mixing), in which $W_{ij}(X)$ varies through scalar coefficients applied to shared value maps, and (ii) Structured Dynamics (Implicit) (state-space recurrences), in which $W_{ij}$ is induced by a latent dynamical system. Using this framework, we derive three theoretical results. First, we establish the Interaction Rank Gap: models in the Unified Factorized Framework, such as single-head attention, are constrained to a low-dimensional operator span and cannot represent certain structured dynamical maps. Second, we prove an Equivalence (Head-Count) Theorem showing that, within our multi-head factorized class, representing a linear SSM whose lag operators span a $k$-dimensional subspace on length-$n$ sequences requires and is achievable with $H=k$ heads. Third, we prove a Gradient Highway Result, showing that attention layers admit inputs with distance-independent gradient paths, whereas stable linear dynamics exhibit distance-dependent gradient attenuation. Together, these results formalize a fundamental trade-off between algebraic expressivity (interaction/operator span) and long-range gradient propagation, providing theoretical grounding for modern sequence architecture design.
- Abstract(参考訳): シーケンスモデリングは、古典的なリカレントニューラルネットワークから現代のトランスフォーマーやステートスペースモデル(SSM)まで、さまざまなアーキテクチャを生み出してきたが、表現性とトレーニング可能性のトレードオフに関する統一的な理論的理解は依然として限られている。
我々は、入力依存の効果的な相互作用演算子$W_{ij}(X)$を介して、広範囲なシーケンスマップのクラスを表す統一されたフレームワークを導入し、2つの繰り返し構成パターンを明示する。
i) 共有値写像に適用されるスカラー係数によって$W_{ij}(X)$が変化する統一因子化フレームワーク(明示的)
(ii)Structured Dynamics (Implicit) (状態空間再帰) では、W_{ij}$ は潜在力学系によって誘導される。
この枠組みを用いて、3つの理論的結果を得る。
まず、相互作用ランクギャップを確立する: 単一注意のような統一因子化フレームワークのモデルは、低次元の演算子スパンに制約され、特定の構造化された動的マップを表現できない。
第二に、Equivalence (Head-Count) Theorem を証明し、この多頭部分解クラスの中で、ラグ作用素が長さ-n$の列上の$k$次元部分空間にまたがる線形SSMを表現し、$H=k$ヘッドで達成可能であることを示す。
第3に、注意層が距離非依存の勾配経路を持つ入力を許容するのに対し、安定な線形力学は距離依存の勾配減衰を示すことを示すグラディエントハイウェイ結果を示す。
これらの結果は、代数的表現性(相互作用/演算スパン)と長距離勾配伝播の基本的なトレードオフを定式化し、現代のシーケンスアーキテクチャ設計の理論的基盤を提供する。
関連論文リスト
- Decoupling and Damping: Structurally-Regularized Gradient Matching for Multimodal Graph Condensation [3.2987327415317895]
マルチモーダルグラフに適した新しい凝縮フレームワークSR-GMを提案する。
SR-GMは、ベースライン法と比較して精度を大幅に向上し、収束を加速する。
本研究は,資源制約環境下でのマルチモーダルグラフに基づく学習のためのスケーラブルな方法論を提供する。
論文 参考訳(メタデータ) (2025-11-25T11:50:34Z) - Graded Transformers [0.0]
そこで我々は,ベクトル空間上のグレーディングを通じて帰納バイアスを埋め込む新しいシーケンスモデルである Graded Transformer フレームワークを紹介した。
このフレームワークは、以前のモデルの固定グレードの制限を克服し、適応的な特徴優先順位付けを可能にする。
Graded Transformerは、階層的学習とニューロシンボリック推論に対する数学的に原則化されたアプローチを提供する。
論文 参考訳(メタデータ) (2025-07-27T02:34:08Z) - Sequential-Parallel Duality in Prefix Scannable Models [68.39855814099997]
近年では Gated Linear Attention (GLA) や Mamba など様々なモデルが開発されている。
ニアコンスタント時間並列評価と線形時間、定数空間シーケンシャル推論をサポートするニューラルネットワークモデルの全クラスを特徴付けることができるだろうか?
論文 参考訳(メタデータ) (2025-06-12T17:32:02Z) - State-space models can learn in-context by gradient descent [1.3087858009942543]
状態空間モデルは、勾配に基づく学習を実行し、変換器と全く同じ方法で、文脈内学習に使用することができることを示す。
具体的には、1つの構造化状態空間モデル層が乗算入力と出力ゲーティングで拡張され、暗黙線形モデルの出力を再現できることを証明した。
また、状態空間モデルと線形自己意識の関係と、文脈内で学習する能力に関する新たな知見を提供する。
論文 参考訳(メタデータ) (2024-10-15T15:22:38Z) - Theoretical Foundations of Deep Selective State-Space Models [13.971499161967083]
ディープSSMは、さまざまなドメインセットで優れたパフォーマンスを示す。
最近の研究で、線形リカレンス電力が入力と隠れ状態の間の乗法的相互作用を可能にすることが示されている。
ランダム線形再帰が単純な入力制御遷移を備える場合、隠れ状態は強力な数学的対象の低次元射影であることを示す。
論文 参考訳(メタデータ) (2024-02-29T11:20:16Z) - SEGNO: Generalizing Equivariant Graph Neural Networks with Physical
Inductive Biases [66.61789780666727]
等変性を維持しながら, 2階連続性をGNNに組み込む方法を示す。
また、SEGNOに関する理論的知見も提供し、隣接する状態間の一意の軌跡を学習できることを強調している。
我々のモデルは最先端のベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-08-25T07:15:58Z) - Intensity Profile Projection: A Framework for Continuous-Time
Representation Learning for Dynamic Networks [50.2033914945157]
本稿では、連続時間動的ネットワークデータのための表現学習フレームワークIntensity Profile Projectionを提案する。
このフレームワークは3つの段階から構成される: 対の強度関数を推定し、強度再構成誤差の概念を最小化する射影を学習する。
さらに、推定軌跡の誤差を厳密に制御する推定理論を開発し、その表現がノイズに敏感な追従解析に利用できることを示す。
論文 参考訳(メタデータ) (2023-06-09T15:38:25Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。