論文の概要: Understanding and Mitigating Bottlenecks of State Space Models through the Lens of Recency and Over-smoothing
- arxiv url: http://arxiv.org/abs/2501.00658v2
- Date: Tue, 11 Mar 2025 03:58:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 18:30:33.057076
- Title: Understanding and Mitigating Bottlenecks of State Space Models through the Lens of Recency and Over-smoothing
- Title(参考訳): 相対性レンズと過平滑化レンズによる状態空間モデルのボットネックの理解と緩和
- Authors: Peihao Wang, Ruisi Cai, Yuehao Wang, Jiajun Zhu, Pragya Srivastava, Zhangyang Wang, Pan Li,
- Abstract要約: 構造化状態空間モデル (Structured State Space Models, SSMs) は, 強い相対バイアスによって本質的に制限されていることを示す。
このバイアスにより、モデルが遠方の情報を思い出す能力が損なわれ、堅牢性の問題がもたらされる。
本研究では, 状態遷移行列の2つのチャネルをSSMで分極し, それぞれ0と1に設定し, 電流バイアスと過平滑化に同時に対処することを提案する。
- 参考スコア(独自算出の注目度): 56.66469232740998
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Structured State Space Models (SSMs) have emerged as alternatives to transformers. While SSMs are often regarded as effective in capturing long-sequence dependencies, we rigorously demonstrate that they are inherently limited by strong recency bias. Our empirical studies also reveal that this bias impairs the models' ability to recall distant information and introduces robustness issues. Our scaling experiments then discovered that deeper structures in SSMs can facilitate the learning of long contexts. However, subsequent theoretical analysis reveals that as SSMs increase in depth, they exhibit another inevitable tendency toward over-smoothing, e.g., token representations becoming increasingly indistinguishable. This fundamental dilemma between recency and over-smoothing hinders the scalability of existing SSMs. Inspired by our theoretical findings, we propose to polarize two channels of the state transition matrices in SSMs, setting them to zero and one, respectively, simultaneously addressing recency bias and over-smoothing. Experiments demonstrate that our polarization technique consistently enhances the associative recall accuracy of long-range tokens and unlocks SSMs to benefit further from deeper architectures. All source codes are released at https://github.com/VITA-Group/SSM-Bottleneck.
- Abstract(参考訳): 構造化状態空間モデル (Structured State Space Models, SSM) はトランスフォーマーの代替として登場した。
SSMは長周期依存を捉えるのに効果的であると考えられがちだが、強い回帰バイアスによって本質的に制限されていることを厳密に証明する。
我々の実証研究は、このバイアスがモデルが遠方の情報を思い出す能力を損なうことを明らかにし、堅牢性の問題ももたらしている。
スケーリング実験の結果、SSMのより深い構造は、長いコンテキストの学習を容易にすることが判明した。
しかし、その後の理論的分析により、SSMが深みを増すにつれて、過密化に対する別の必然的な傾向、例えばトークン表現がますます区別不能になることが明らかになった。
このレレンシと過度なスムースメントの基本的なジレンマは、既存のSSMのスケーラビリティを妨げる。
本研究では,SSMにおける状態遷移行列の2つのチャネルを分極し,それぞれ0と1に設定し,電流バイアスと過平滑化に同時に対処することを提案する。
実験により、我々の偏極技術は長距離トークンの連想的リコール精度を一貫して向上し、より深いアーキテクチャの恩恵を受けるためにSSMをアンロックすることを示した。
すべてのソースコードはhttps://github.com/VITA-Group/SSM-Bottleneckで公開されている。
関連論文リスト
- Farther the Shift, Sparser the Representation: Analyzing OOD Mechanisms in LLMs [100.02824137397464]
難易度が増大する入力に遭遇した場合,大規模言語モデルが内部表現をどのように適応するかを検討する。
タスクの難易度が増大するにつれて、LLMの最後の隠れ状態は実質的にスペーサーとなる。
この空間性-微分的関係は、様々なモデルや領域で観測可能である。
論文 参考訳(メタデータ) (2026-03-03T18:48:15Z) - A Comparative Analysis of Contextual Representation Flow in State-Space and Transformer Architectures [27.45316137669387]
状態空間モデル(SSM)は、長いシーケンス処理のためにTransformer-Based Models(TBM)の効率的な代替品として登場した。
本稿では,SSM と TBM における表現伝搬の統一・トークン・層レベルでの初めての解析について述べる。
TBMはトークン表現を急速に均質化し、多様性は後層のみに再燃し、SSMはトークンの特異性を早期に保存するが、より深い均質化に収束する。
論文 参考訳(メタデータ) (2025-10-08T04:46:11Z) - Sycophancy Mitigation Through Reinforcement Learning with Uncertainty-Aware Adaptive Reasoning Trajectories [58.988535279557546]
適応推論トラジェクトリを用いたtextbf sycophancy Mitigation を提案する。
SMARTは,分布外の入力に対して強い性能を維持しながら,サイコファンティクスの挙動を著しく低下させることを示した。
論文 参考訳(メタデータ) (2025-09-20T17:09:14Z) - Echo State Networks as State-Space Models: A Systems Perspective [10.710447183485284]
本研究では, エコー状態特性が非線形SSMの入力状態安定性の例であることを示す。
また、解釈可能な極とメモリ水平線を持つ局所有効なLTI SSMを生成する2つの相補写像も開発する。
この観点は、メモリスペクトルの周波数領域の特徴を与え、ESNが構造化SSMカーネルをエミュレートするときに明確にする。
論文 参考訳(メタデータ) (2025-09-04T17:42:03Z) - Learning to Dissipate Energy in Oscillatory State-Space Models [55.09730499143998]
状態空間モデル (SSM) はシーケンス学習のためのネットワークのクラスである。
我々は,D-LinOSSがLinOSSの手法を長距離学習タスクで一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-05-17T23:15:17Z) - Emergence of the Primacy Effect in Structured State-Space Models [0.35534933448684125]
構造化状態空間モデル(SSM)は、従来のリカレントニューラルネットワークよりも永続的なメモリ保持を提供するために開発された。
標準SSMの記憶機構は理論上、時間とともに単調に崩壊するように設計されている。
本研究は,合成的,統計的にバランスの取れた記憶タスクを訓練し,評価すると,SSMは*初期*で提示されたデータを主に記憶に保存する。
論文 参考訳(メタデータ) (2025-02-19T13:55:32Z) - Generalization Error Analysis for Selective State-Space Models Through the Lens of Attention [2.8998926117101367]
ステートスペースモデル(State-space Model、SSM)は、トランスフォーマーの代替として登場した新しい基礎モデルである。
本稿では,MambaアーキテクチャとMamba-2アーキテクチャのコアコンポーネントである選択SSMの詳細な理論的解析を行う。
論文 参考訳(メタデータ) (2025-02-03T16:05:31Z) - MVICAD2: Multi-View Independent Component Analysis with Delays and Dilations [61.59658203704757]
本稿では,時間的遅延と拡張の両面において,被験者間でソースを異にするMVICAD(Multi-View Independent Component Analysis with Delays and Dilations)を提案する。
本稿では, 正則化と最適化手法を用いて, 性能向上を図るため, 正則化と最適化手法を用いて, その可能性の近似を導出する。
論文 参考訳(メタデータ) (2025-01-13T15:47:02Z) - Provable Benefits of Complex Parameterizations for Structured State Space Models [51.90574950170374]
構造化状態空間モデル (Structured State Space Model, SSM) は、指定された構造に固執する線形力学系である。
パラメータ化が現実の典型的なニューラルネットワークモジュールとは対照的に、SSMは複雑なパラメータ化を使用することが多い。
本稿では,実対角 SSM と複素対角 SSM の形式的ギャップを確立することにより,SSM の複雑なパラメータ化の利点を説明する。
論文 参考訳(メタデータ) (2024-10-17T22:35:50Z) - Exploring Adversarial Robustness of Deep State Space Models [26.650751659034782]
対人訓練(Adversarial Training、AT)は、対人ロバストネス(AR)を高める主要なアプローチである
純粋なSSM構造はATの恩恵を受けるのに苦労する一方で、注意を取り入れることによってロバスト性と一般化のトレードオフが著しく向上することを示す。
我々は、ロバストオーバーフィッティング(RO)の問題を導入することなく、AT性能を注意統合SSMに近づける、シンプルで効果的な適応スケーリング(AdS)機構を提案する。
論文 参考訳(メタデータ) (2024-06-08T17:25:48Z) - SMR: State Memory Replay for Long Sequence Modeling [19.755738298836526]
本稿では並列畳み込み計算における互換性の限界を克服する新しい非再帰的非一様サンプル処理戦略を提案する。
本研究では,学習可能な記憶を利用する状態記憶再生(SMR)を導入し,学習データと異なるサンプリングポイントでの一般化のために,現在の状態を多段階情報で調整する。
自己回帰言語モデリングとLong Range Arenaにおける長距離モデリングタスクの実験は、一連のSSMモデルに対するSMRメカニズムの一般的な効果を実証している。
論文 参考訳(メタデータ) (2024-05-27T17:53:32Z) - The Expressive Capacity of State Space Models: A Formal Language Perspective [0.8948475969696075]
線形状態空間モデル(SSM)に基づくリカレントモデルは、言語モデリング(LM)において有望な性能を示した。
本稿では,変換器や従来のRNNと比較して,そのようなSSMの容量に関する包括的理論的研究を行う。
論文 参考訳(メタデータ) (2024-05-27T17:46:57Z) - The Illusion of State in State-Space Models [27.57426601905237]
ステートスペースモデル(SSM)は、大きな言語モデルを構築するための代替アーキテクチャとして考えられる。
我々は,SSMが変圧器のような非リカレントモデルに類似した制約があることを示し,実世界の状態追跡問題を解く能力を制限する可能性があることを示した。
論文 参考訳(メタデータ) (2024-04-12T21:30:06Z) - SpikeMba: Multi-Modal Spiking Saliency Mamba for Temporal Video Grounding [50.337896542603524]
時間的ビデオグラウンドティングのためのマルチモーダル・スパイク・サリエンシ・マンバであるSpikeMbaを紹介した。
我々のアプローチでは、スパイキングニューラルネットワーク(SNN)と状態空間モデル(SSM)を統合して、そのユニークな利点を活用する。
我々の実験は、最先端の手法を一貫して上回るSpikeMbaの有効性を実証した。
論文 参考訳(メタデータ) (2024-04-01T15:26:44Z) - Theoretical Foundations of Deep Selective State-Space Models [13.971499161967083]
ディープSSMは、さまざまなドメインセットで優れたパフォーマンスを示す。
最近の研究で、線形リカレンス電力が入力と隠れ状態の間の乗法的相互作用を可能にすることが示されている。
ランダム線形再帰が単純な入力制御遷移を備える場合、隠れ状態は強力な数学的対象の低次元射影であることを示す。
論文 参考訳(メタデータ) (2024-02-29T11:20:16Z) - Neuro-mimetic Task-free Unsupervised Online Learning with Continual
Self-Organizing Maps [56.827895559823126]
自己組織化マップ(英: Self-organizing map、SOM)は、クラスタリングや次元減少によく用いられるニューラルネットワークモデルである。
低メモリ予算下でのオンライン教師なし学習が可能なSOM(連続SOM)の一般化を提案する。
MNIST, Kuzushiji-MNIST, Fashion-MNISTなどのベンチマークでは, ほぼ2倍の精度が得られた。
論文 参考訳(メタデータ) (2024-02-19T19:11:22Z) - An Empirical Study of Catastrophic Forgetting in Large Language Models During Continual Fine-tuning [70.48605869773814]
カタストロフィック・ナッシング(英: Catastrophic forgetting、CF)は、機械学習において、モデルが以前に学習した情報を忘れたときに発生する現象である。
本研究では,大規模言語モデルにおける連続的調律時の忘れ現象を実験的に評価する。
論文 参考訳(メタデータ) (2023-08-17T02:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。