論文の概要: A Comparative Analysis of Contextual Representation Flow in State-Space and Transformer Architectures
- arxiv url: http://arxiv.org/abs/2510.06640v1
- Date: Wed, 08 Oct 2025 04:46:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.301074
- Title: A Comparative Analysis of Contextual Representation Flow in State-Space and Transformer Architectures
- Title(参考訳): 状態空間と変圧器アーキテクチャにおける文脈表現フローの比較解析
- Authors: Nhat M. Hoang, Do Xuan Long, Cong-Duy Nguyen, Min-Yen Kan, Luu Anh Tuan,
- Abstract要約: 状態空間モデル(SSM)は、長いシーケンス処理のためにTransformer-Based Models(TBM)の効率的な代替品として登場した。
本稿では,SSM と TBM における表現伝搬の統一・トークン・層レベルでの初めての解析について述べる。
TBMはトークン表現を急速に均質化し、多様性は後層のみに再燃し、SSMはトークンの特異性を早期に保存するが、より深い均質化に収束する。
- 参考スコア(独自算出の注目度): 27.45316137669387
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: State Space Models (SSMs) have recently emerged as efficient alternatives to Transformer-Based Models (TBMs) for long-sequence processing, offering linear scaling and lower memory use. Yet, how contextual information flows across layers and tokens in these architectures remains understudied. We present the first unified, token- and layer-level analysis of representation propagation in SSMs and TBMs. Using centered kernel alignment, stability metrics, and probing, we characterize how representations evolve within and across layers. We find a key divergence: TBMs rapidly homogenize token representations, with diversity reemerging only in later layers, while SSMs preserve token uniqueness early but converge to homogenization deeper. Theoretical analysis and parameter randomization further reveal that oversmoothing in TBMs stems from architectural design, whereas in SSMs it arises mainly from training dynamics. These insights clarify the inductive biases of both architectures and inform future model and training designs for long-context reasoning.
- Abstract(参考訳): State Space Models (SSM) は、最近、長いシーケンス処理のためにTransformer-Based Models (TBM) に代わる効率的な代替品として登場し、線形スケーリングとメモリ使用量の削減を提供している。
しかし、これらのアーキテクチャにおけるレイヤやトークン間のコンテキスト情報の流れは、まだ検討されていない。
本稿では,SSM と TBM における表現伝搬の統一・トークン・層レベルでの初めての解析について述べる。
中心となるカーネルアライメント、安定性メトリクス、プローブを使用して、レイヤ内および層間の表現の進化を特徴付ける。
TBMはトークン表現を急速に均質化し、多様性は後層の層にのみ再帰し、SSMはトークンの特異性を早期に保存するが、より深い均質化に収束する。
理論的解析とパラメータのランダム化により、TBMの過度な平滑化はアーキテクチャ設計に起因するが、SSMでは主にトレーニング力学に起因していることが明らかになった。
これらの知見は、両方のアーキテクチャの帰納的バイアスを明らかにし、長期コンテキスト推論のための将来のモデルとトレーニング設計を通知する。
関連論文リスト
- Emergent Structured Representations Support Flexible In-Context Inference in Large Language Models [77.98801218316505]
大型言語モデル(LLM)は、人間のような推論を示唆する創発的な行動を示す。
テキスト内概念推論におけるLLMの内部処理について検討する。
論文 参考訳(メタデータ) (2026-02-08T03:14:39Z) - Towards Understanding What State Space Models Learn About Code [5.605881212882263]
State Space Models (SSM) は、トランスフォーマーアーキテクチャの効率的な代替品として登場した。
近年の研究では、SSMは同様の条件下で訓練された場合、コード検索などのコード理解タスクにおいて、Transformerと一致したり、超えたりすることができることが示されている。
本稿では、SSMベースのコードモデルが実際に何を学習しているかを初めて体系的に分析し、SSMとTransformerベースのコードモデルの比較分析を行う。
論文 参考訳(メタデータ) (2026-02-06T15:29:46Z) - On the Relation of State Space Models and Hidden Markov Models [0.07646713951724009]
State Space Models (SSM) と Hidden Markov Models (HMM) は、遅延変数で逐次データをモデリングするための基礎的なフレームワークである。
最近の決定論的状態空間モデルは、S4やMambaのようなアーキテクチャを通して自然言語処理に再導入されている。
論文 参考訳(メタデータ) (2026-01-19T19:51:05Z) - X-VMamba: Explainable Vision Mamba [0.0]
State Space Models (SSM) は、シーケンスモデリングのためのTransformerの強力な代替品として登場した。
本稿では,入力シーケンスの異なる部分(トークンやパッチ)がSSMの内部状態にどのように影響するかを定量化する,可制御性に基づく解釈可能性フレームワークを提案する。
我々のフレームワークは、すべてのドメインにわたるSSMの統一的で基礎的な解釈可能性パラダイムとして、制御可能性分析を確立します。
論文 参考訳(メタデータ) (2025-11-16T17:18:12Z) - FUDOKI: Discrete Flow-based Unified Understanding and Generation via Kinetic-Optimal Velocities [76.46448367752944]
MLLM(Multimodal large language model)は、単一のフレームワーク内で視覚的理解と画像生成を統一する言語である。
ほとんどの既存のMLLMはAutore(AR)アーキテクチャに依存しており、将来の開発に固有の制限を課している。
本稿では,離散フローマッチングに基づく統一マルチモーダルモデルであるFUDOKIを紹介する。
論文 参考訳(メタデータ) (2025-05-26T15:46:53Z) - Message-Passing State-Space Models: Improving Graph Learning with Modern Sequence Modeling [19.10832920407789]
我々は、メッセージパッシングニューラルネットワークフレームワークに直接、現代のSSMの鍵となる原則を組み込むことによって、新しい視点を導入する。
我々は,MP-SSMを用いて,メッセージパッシングのアーキテクチャ的単純さを保ちながら,効率よく,順列同変かつ長距離情報伝達を可能にする。
論文 参考訳(メタデータ) (2025-05-24T14:53:07Z) - Will Pre-Training Ever End? A First Step Toward Next-Generation Foundation MLLMs via Self-Improving Systematic Cognition [89.50068130832635]
自己改善認知 (SIcog) は、マルチモーダル知識によって次世代のMLLMを構築するための自己学習フレームワークである。
ステップバイステップの視覚的理解のためのChain-of-Descriptionを提案し、詳細なマルチモーダル推論をサポートするために構造化されたChain-of-Thought(CoT)推論を統合する。
実験は、マルチモーダル認知を増強したMLLMの開発におけるSIcogの有効性を示す。
論文 参考訳(メタデータ) (2025-03-16T00:25:13Z) - Understanding and Mitigating Bottlenecks of State Space Models through the Lens of Recency and Over-smoothing [56.66469232740998]
構造化状態空間モデル (Structured State Space Models, SSMs) は, 強い相対バイアスによって本質的に制限されていることを示す。
このバイアスにより、モデルが遠方の情報を思い出す能力が損なわれ、堅牢性の問題がもたらされる。
本研究では, 状態遷移行列の2つのチャネルをSSMで分極し, それぞれ0と1に設定し, 電流バイアスと過平滑化に同時に対処することを提案する。
論文 参考訳(メタデータ) (2024-12-31T22:06:39Z) - Understanding the differences in Foundation Models: Attention, State Space Models, and Recurrent Neural Networks [50.29356570858905]
本稿では,これらすべてのアーキテクチャの共通表現に関する原則的な調査を可能にする動的システムフレームワーク(DSF)について紹介する。
ソフトマックスアテンションと他のモデルクラスとの原理的比較を行い、ソフトマックスアテンションを近似できる理論条件について議論する。
このことは、DSFが将来のより効率的でスケーラブルな基盤モデルの体系的な開発を導く可能性を示している。
論文 参考訳(メタデータ) (2024-05-24T17:19:57Z) - Theoretical Foundations of Deep Selective State-Space Models [13.971499161967083]
ディープSSMは、さまざまなドメインセットで優れたパフォーマンスを示す。
最近の研究で、線形リカレンス電力が入力と隠れ状態の間の乗法的相互作用を可能にすることが示されている。
ランダム線形再帰が単純な入力制御遷移を備える場合、隠れ状態は強力な数学的対象の低次元射影であることを示す。
論文 参考訳(メタデータ) (2024-02-29T11:20:16Z) - Disentangling Structured Components: Towards Adaptive, Interpretable and
Scalable Time Series Forecasting [52.47493322446537]
本研究では,時空間パターンの各コンポーネントを個別にモデル化する適応的,解釈可能,スケーラブルな予測フレームワークを開発する。
SCNNは、空間時間パターンの潜在構造を算術的に特徴づける、MSSの事前定義された生成プロセスで動作する。
SCNNが3つの実世界のデータセットの最先端モデルよりも優れた性能を達成できることを示すため、大規模な実験が行われた。
論文 参考訳(メタデータ) (2023-05-22T13:39:44Z) - PredRNN: A Recurrent Neural Network for Spatiotemporal Predictive
Learning [109.84770951839289]
歴史的文脈からビジュアルダイナミクスを学習するための新しいリカレントネットワークであるPredRNNを紹介する。
本手法は,3つの標準データセット上で高い競争結果が得られることを示す。
論文 参考訳(メタデータ) (2021-03-17T08:28:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。