論文の概要: The Expressive Capacity of State Space Models: A Formal Language Perspective
- arxiv url: http://arxiv.org/abs/2405.17394v2
- Date: Sun, 2 Jun 2024 19:43:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-04 13:59:47.271247
- Title: The Expressive Capacity of State Space Models: A Formal Language Perspective
- Title(参考訳): 状態空間モデルの表現能力:形式言語の視点から
- Authors: Yash Sarrof, Yana Veitsman, Michael Hahn,
- Abstract要約: 線形状態空間モデル(SSM)に基づくリカレントモデルは、言語モデリング(LM)において有望な性能を示した。
本稿では,変換器や従来のRNNと比較して,そのようなSSMの容量に関する包括的理論的研究を行う。
- 参考スコア(独自算出の注目度): 0.8948475969696075
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, recurrent models based on linear state space models (SSMs) have shown promising performance in language modeling (LM), competititve with transformers. However, there is little understanding of the in-principle abilities of such models, which could provide useful guidance to the search for better LM architectures. We present a comprehensive theoretical study of the capacity of such SSMs as it compares to that of transformers and traditional RNNs. We find that SSMs and transformers have overlapping but distinct strengths. In star-free state tracking, SSMs implement straightforward and exact solutions to problems that transformers struggle to represent exactly. They can also model bounded hierarchical structure with optimal memory even without simulating a stack. On the other hand, we identify a design choice in current SSMs that limits their expressive power. We discuss implications for SSM and LM research, and verify results empirically on a recent SSM, Mamba.
- Abstract(参考訳): 近年,線形状態空間モデル(SSM)に基づくリカレントモデルは言語モデリング(LM)において有望な性能を示した。
しかし、そのようなモデルの本質的な能力についてはほとんど理解されておらず、優れたLMアーキテクチャの探索に有用なガイダンスを提供することができる。
本稿では,変換器や従来のRNNと比較して,そのようなSSMの容量に関する包括的理論的研究を行う。
SSMとトランスフォーマーは重なり合うが、異なる強度を持つ。
スターレス状態追跡では、SSMはトランスフォーマーが正確に表現するのに苦労する問題に対する単純で正確な解決策を実装している。
また、スタックをシミュレートすることなく、最適なメモリで境界階層構造をモデル化することもできる。
一方,現在のSSMでは,表現力を制限する設計選択が可能である。
本稿では,SSM と LM 研究の意義を論じ,最近の SSM である Mamba で実証実験を行った。
関連論文リスト
- Provable Benefits of Complex Parameterizations for Structured State Space Models [51.90574950170374]
構造化状態空間モデル (Structured State Space Model, SSM) は、指定された構造に固執する線形力学系である。
パラメータ化が現実の典型的なニューラルネットワークモジュールとは対照的に、SSMは複雑なパラメータ化を使用することが多い。
本稿では,実対角 SSM と複素対角 SSM の形式的ギャップを確立することにより,SSM の複雑なパラメータ化の利点を説明する。
論文 参考訳(メタデータ) (2024-10-17T22:35:50Z) - On the Adversarial Transferability of Generalized "Skip Connections" [83.71752155227888]
スキップ接続は、より深く、より強力な現代のディープモデルにとって重要な要素である。
バックプロパゲーションにおいて、バックプロパゲーション中に、スキップ接続からより多くの勾配を用いることで、高い転送性を持つ逆例を作成できることが分かる。
本稿では,ResNet,Transformer,Inceptions,Neural Architecture Search,Large Language Modelsなど,さまざまなモデルに対する包括的なトランスファー攻撃を行う。
論文 参考訳(メタデータ) (2024-10-11T16:17:47Z) - Longhorn: State Space Models are Amortized Online Learners [51.10124201221601]
ステートスペースモデル(SSM)は、トレーニング中に並列性を維持しながら線形デコード効率を提供する。
本研究では、オンライン学習のレンズを通してSSM設計を探求し、特定のオンライン学習問題のメタモジュールとしてSSMを概念化する。
我々は、オンライン連想的リコール問題を解決するためのクローズドフォームソリューションに類似した、新しいディープSSMアーキテクチャであるLonghornを紹介した。
論文 参考訳(メタデータ) (2024-07-19T11:12:08Z) - Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality [31.985243136674146]
Mamba のような状態空間モデル (SSM) は,小型・中規模での変換器の整合性や性能向上が示されている。
我々の状態空間双対性(SSD)フレームワークは、コア層が2~8倍高速なMambaの選択SSMの精細化である新しいアーキテクチャ(Mamba-2)を設計することができる。
論文 参考訳(メタデータ) (2024-05-31T17:50:01Z) - State Space Models are Comparable to Transformers in Estimating Functions with Dynamic Smoothness [41.617269918948686]
状態空間モデル(SSM)に基づくディープニューラルネットワークは、シーケンスモデリングにおいて多くの注目を集めている。
本稿では,逐次列列関数を推定する観点から,タスクSSMが変換器の代替となるのかを理論的に検討する。
入力シーケンスに応じて滑らかさが変化しても,SSMが目標関数を推定できることを実証する。
論文 参考訳(メタデータ) (2024-05-29T12:23:48Z) - State Space Model for New-Generation Network Alternative to Transformers: A Survey [52.812260379420394]
深層学習時代において、Transformerアーキテクチャは、トレーニング済みのビッグモデルとさまざまなダウンストリームタスクにまたがる強力なパフォーマンスを示してきた。
注意モデルの複雑さをさらに軽減するために、より効率的な手法を設計するための多くの努力がなされている。
その中でも、自己注意に基づくトランスフォーマーモデルの代替として、ステートスペースモデル(SSM)が近年ますます注目を集めている。
論文 参考訳(メタデータ) (2024-04-15T07:24:45Z) - The Illusion of State in State-Space Models [27.57426601905237]
ステートスペースモデル(SSM)は、大きな言語モデルを構築するための代替アーキテクチャとして考えられる。
我々は,SSMが変圧器のような非リカレントモデルに類似した制約があることを示し,実世界の状態追跡問題を解く能力を制限する可能性があることを示した。
論文 参考訳(メタデータ) (2024-04-12T21:30:06Z) - Theoretical Foundations of Deep Selective State-Space Models [13.971499161967083]
ディープSSMは、さまざまなドメインセットで優れたパフォーマンスを示す。
最近の研究で、線形リカレンス電力が入力と隠れ状態の間の乗法的相互作用を可能にすることが示されている。
ランダム線形再帰が単純な入力制御遷移を備える場合、隠れ状態は強力な数学的対象の低次元射影であることを示す。
論文 参考訳(メタデータ) (2024-02-29T11:20:16Z) - Can Mamba Learn How to Learn? A Comparative Study on In-Context Learning Tasks [25.092302463435523]
状態空間モデル(SSM)は言語モデリングにおけるトランスフォーマーネットワークの代替として提案されている。
本研究では,各種タスクを対象としたトランスフォーマーモデルに対して,マンバに着目したSSMのICL性能を評価する。
論文 参考訳(メタデータ) (2024-02-06T18:56:35Z) - Repeat After Me: Transformers are Better than State Space Models at Copying [53.47717661441142]
一般化された状態空間モデルは、推論時間効率の観点からは有望であるが、入力コンテキストからのコピーを必要とするタスクのトランスフォーマーモデルと比較して限定的であることを示す。
論文 参考訳(メタデータ) (2024-02-01T21:44:11Z) - Learning Bounded Context-Free-Grammar via LSTM and the
Transformer:Difference and Explanations [51.77000472945441]
Long Short-Term Memory (LSTM) と Transformer は、自然言語処理タスクに使用される2つの一般的なニューラルネットワークアーキテクチャである。
実際には、トランスフォーマーモデルの方がLSTMよりも表現力が高いことがよく見られる。
本研究では,LSTMとTransformerの実践的差異について検討し,その潜在空間分解パターンに基づく説明を提案する。
論文 参考訳(メタデータ) (2021-12-16T19:56:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。