論文の概要: A Comparative Analysis of Contextual Representation Flow in State-Space and Transformer Architectures
- arxiv url: http://arxiv.org/abs/2510.06640v1
- Date: Wed, 08 Oct 2025 04:46:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.301074
- Title: A Comparative Analysis of Contextual Representation Flow in State-Space and Transformer Architectures
- Title(参考訳): 状態空間と変圧器アーキテクチャにおける文脈表現フローの比較解析
- Authors: Nhat M. Hoang, Do Xuan Long, Cong-Duy Nguyen, Min-Yen Kan, Luu Anh Tuan,
- Abstract要約: 状態空間モデル(SSM)は、長いシーケンス処理のためにTransformer-Based Models(TBM)の効率的な代替品として登場した。
本稿では,SSM と TBM における表現伝搬の統一・トークン・層レベルでの初めての解析について述べる。
TBMはトークン表現を急速に均質化し、多様性は後層のみに再燃し、SSMはトークンの特異性を早期に保存するが、より深い均質化に収束する。
- 参考スコア(独自算出の注目度): 27.45316137669387
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: State Space Models (SSMs) have recently emerged as efficient alternatives to Transformer-Based Models (TBMs) for long-sequence processing, offering linear scaling and lower memory use. Yet, how contextual information flows across layers and tokens in these architectures remains understudied. We present the first unified, token- and layer-level analysis of representation propagation in SSMs and TBMs. Using centered kernel alignment, stability metrics, and probing, we characterize how representations evolve within and across layers. We find a key divergence: TBMs rapidly homogenize token representations, with diversity reemerging only in later layers, while SSMs preserve token uniqueness early but converge to homogenization deeper. Theoretical analysis and parameter randomization further reveal that oversmoothing in TBMs stems from architectural design, whereas in SSMs it arises mainly from training dynamics. These insights clarify the inductive biases of both architectures and inform future model and training designs for long-context reasoning.
- Abstract(参考訳): State Space Models (SSM) は、最近、長いシーケンス処理のためにTransformer-Based Models (TBM) に代わる効率的な代替品として登場し、線形スケーリングとメモリ使用量の削減を提供している。
しかし、これらのアーキテクチャにおけるレイヤやトークン間のコンテキスト情報の流れは、まだ検討されていない。
本稿では,SSM と TBM における表現伝搬の統一・トークン・層レベルでの初めての解析について述べる。
中心となるカーネルアライメント、安定性メトリクス、プローブを使用して、レイヤ内および層間の表現の進化を特徴付ける。
TBMはトークン表現を急速に均質化し、多様性は後層の層にのみ再帰し、SSMはトークンの特異性を早期に保存するが、より深い均質化に収束する。
理論的解析とパラメータのランダム化により、TBMの過度な平滑化はアーキテクチャ設計に起因するが、SSMでは主にトレーニング力学に起因していることが明らかになった。
これらの知見は、両方のアーキテクチャの帰納的バイアスを明らかにし、長期コンテキスト推論のための将来のモデルとトレーニング設計を通知する。
関連論文リスト
- Message-Passing State-Space Models: Improving Graph Learning with Modern Sequence Modeling [19.10832920407789]
我々は、メッセージパッシングニューラルネットワークフレームワークに直接、現代のSSMの鍵となる原則を組み込むことによって、新しい視点を導入する。
我々は,MP-SSMを用いて,メッセージパッシングのアーキテクチャ的単純さを保ちながら,効率よく,順列同変かつ長距離情報伝達を可能にする。
論文 参考訳(メタデータ) (2025-05-24T14:53:07Z) - Will Pre-Training Ever End? A First Step Toward Next-Generation Foundation MLLMs via Self-Improving Systematic Cognition [89.50068130832635]
自己改善認知 (SIcog) は、マルチモーダル知識によって次世代のMLLMを構築するための自己学習フレームワークである。
ステップバイステップの視覚的理解のためのChain-of-Descriptionを提案し、詳細なマルチモーダル推論をサポートするために構造化されたChain-of-Thought(CoT)推論を統合する。
実験は、マルチモーダル認知を増強したMLLMの開発におけるSIcogの有効性を示す。
論文 参考訳(メタデータ) (2025-03-16T00:25:13Z) - Understanding and Mitigating Bottlenecks of State Space Models through the Lens of Recency and Over-smoothing [56.66469232740998]
構造化状態空間モデル (Structured State Space Models, SSMs) は, 強い相対バイアスによって本質的に制限されていることを示す。
このバイアスにより、モデルが遠方の情報を思い出す能力が損なわれ、堅牢性の問題がもたらされる。
本研究では, 状態遷移行列の2つのチャネルをSSMで分極し, それぞれ0と1に設定し, 電流バイアスと過平滑化に同時に対処することを提案する。
論文 参考訳(メタデータ) (2024-12-31T22:06:39Z) - Understanding the differences in Foundation Models: Attention, State Space Models, and Recurrent Neural Networks [50.29356570858905]
本稿では,これらすべてのアーキテクチャの共通表現に関する原則的な調査を可能にする動的システムフレームワーク(DSF)について紹介する。
ソフトマックスアテンションと他のモデルクラスとの原理的比較を行い、ソフトマックスアテンションを近似できる理論条件について議論する。
このことは、DSFが将来のより効率的でスケーラブルな基盤モデルの体系的な開発を導く可能性を示している。
論文 参考訳(メタデータ) (2024-05-24T17:19:57Z) - Theoretical Foundations of Deep Selective State-Space Models [13.971499161967083]
ディープSSMは、さまざまなドメインセットで優れたパフォーマンスを示す。
最近の研究で、線形リカレンス電力が入力と隠れ状態の間の乗法的相互作用を可能にすることが示されている。
ランダム線形再帰が単純な入力制御遷移を備える場合、隠れ状態は強力な数学的対象の低次元射影であることを示す。
論文 参考訳(メタデータ) (2024-02-29T11:20:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。