論文の概要: The Illusion of State in State-Space Models
- arxiv url: http://arxiv.org/abs/2404.08819v1
- Date: Fri, 12 Apr 2024 21:30:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 18:32:47.987262
- Title: The Illusion of State in State-Space Models
- Title(参考訳): 状態空間モデルにおける状態のイリュージョン
- Authors: William Merrill, Jackson Petty, Ashish Sabharwal,
- Abstract要約: ステートスペースモデル(SSM)は、大きな言語モデルを構築するための代替アーキテクチャとして考えられる。
我々は,SSMが変圧器のような非リカレントモデルに類似した制約があることを示し,実世界の状態追跡問題を解く能力を制限する可能性があることを示した。
- 参考スコア(独自算出の注目度): 27.57426601905237
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-space models (SSMs) have emerged as a potential alternative architecture for building large language models (LLMs) compared to the previously ubiquitous transformer architecture. One theoretical weakness of transformers is that they cannot express certain kinds of sequential computation and state tracking (Merrill and Sabharwal, 2023), which SSMs are explicitly designed to address via their close architectural similarity to recurrent neural networks (RNNs). But do SSMs truly have an advantage (over transformers) in expressive power for state tracking? Surprisingly, the answer is no. Our analysis reveals that the expressive power of SSMs is limited very similarly to transformers: SSMs cannot express computation outside the complexity class $\mathsf{TC}^0$. In particular, this means they cannot solve simple state-tracking problems like permutation composition. It follows that SSMs are provably unable to accurately track chess moves with certain notation, evaluate code, or track entities in a long narrative. To supplement our formal analysis, we report experiments showing that Mamba-style SSMs indeed struggle with state tracking. Thus, despite its recurrent formulation, the "state" in an SSM is an illusion: SSMs have similar expressiveness limitations to non-recurrent models like transformers, which may fundamentally limit their ability to solve real-world state-tracking problems.
- Abstract(参考訳): ステートスペースモデル(SSM)は、かつてユビキタスであったトランスフォーマーアーキテクチャと比較して、大きな言語モデル(LLM)を構築するための代替アーキテクチャとして出現している。
変換器の理論的弱点の1つは、ある種の逐次計算と状態追跡を表現できないことである(Merrill and Sabharwal, 2023)。
しかし、SSMは状態トラッキングの表現力において本当に(トランスフォーマーよりも)有利なものなのだろうか?
驚いたことに、答えはノーだ。
SSMは複雑性クラス$\mathsf{TC}^0$の外では計算を表現できない。
特にこれは、置換合成のような単純な状態追跡問題を解くことができないことを意味する。
SSMは、特定の表記法でチェスの動きを正確に追跡したり、コードを評価したり、長い物語の中でエンティティを追跡したりすることができない。
フォーマルな分析を補完するため,マンバスタイルのSSMが状態追跡に苦慮していることを示す実験を報告した。
したがって、再帰的な定式化にもかかわらず、SSMの「状態」は錯覚である: SSMは、トランスフォーマーのような非再帰モデルに類似した表現性制限を持ち、現実世界の状態追跡問題の解法を根本的に制限する可能性がある。
関連論文リスト
- Provable Benefits of Complex Parameterizations for Structured State Space Models [51.90574950170374]
構造化状態空間モデル (Structured State Space Model, SSM) は、指定された構造に固執する線形力学系である。
パラメータ化が現実の典型的なニューラルネットワークモジュールとは対照的に、SSMは複雑なパラメータ化を使用することが多い。
本稿では,実対角 SSM と複素対角 SSM の形式的ギャップを確立することにより,SSM の複雑なパラメータ化の利点を説明する。
論文 参考訳(メタデータ) (2024-10-17T22:35:50Z) - On the Adversarial Transferability of Generalized "Skip Connections" [83.71752155227888]
スキップ接続は、より深く、より強力な現代のディープモデルにとって重要な要素である。
バックプロパゲーションにおいて、バックプロパゲーション中に、スキップ接続からより多くの勾配を用いることで、高い転送性を持つ逆例を作成できることが分かる。
本稿では,ResNet,Transformer,Inceptions,Neural Architecture Search,Large Language Modelsなど,さまざまなモデルに対する包括的なトランスファー攻撃を行う。
論文 参考訳(メタデータ) (2024-10-11T16:17:47Z) - Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality [31.985243136674146]
Mamba のような状態空間モデル (SSM) は,小型・中規模での変換器の整合性や性能向上が示されている。
我々の状態空間双対性(SSD)フレームワークは、コア層が2~8倍高速なMambaの選択SSMの精細化である新しいアーキテクチャ(Mamba-2)を設計することができる。
論文 参考訳(メタデータ) (2024-05-31T17:50:01Z) - State Space Models are Comparable to Transformers in Estimating Functions with Dynamic Smoothness [41.617269918948686]
状態空間モデル(SSM)に基づくディープニューラルネットワークは、シーケンスモデリングにおいて多くの注目を集めている。
本稿では,逐次列列関数を推定する観点から,タスクSSMが変換器の代替となるのかを理論的に検討する。
入力シーケンスに応じて滑らかさが変化しても,SSMが目標関数を推定できることを実証する。
論文 参考訳(メタデータ) (2024-05-29T12:23:48Z) - The Expressive Capacity of State Space Models: A Formal Language Perspective [0.8948475969696075]
線形状態空間モデル(SSM)に基づくリカレントモデルは、言語モデリング(LM)において有望な性能を示した。
本稿では,変換器や従来のRNNと比較して,そのようなSSMの容量に関する包括的理論的研究を行う。
論文 参考訳(メタデータ) (2024-05-27T17:46:57Z) - Meanings and Feelings of Large Language Models: Observability of Latent States in Generative AI [65.04274914674771]
アメリカ心理学会(APA)によると、現在のLarge Language Models(LLM)は「フィーリング」ができない。
我々の分析は、モデルがユーザに見えない非自明な計算を実行できるようにする可能性のある設計に光を当てている。
論文 参考訳(メタデータ) (2024-05-22T23:18:58Z) - Theoretical Foundations of Deep Selective State-Space Models [13.971499161967083]
ディープSSMは、さまざまなドメインセットで優れたパフォーマンスを示す。
最近の研究で、線形リカレンス電力が入力と隠れ状態の間の乗法的相互作用を可能にすることが示されている。
ランダム線形再帰が単純な入力制御遷移を備える場合、隠れ状態は強力な数学的対象の低次元射影であることを示す。
論文 参考訳(メタデータ) (2024-02-29T11:20:16Z) - Repeat After Me: Transformers are Better than State Space Models at Copying [53.47717661441142]
一般化された状態空間モデルは、推論時間効率の観点からは有望であるが、入力コンテキストからのコピーを必要とするタスクのトランスフォーマーモデルと比較して限定的であることを示す。
論文 参考訳(メタデータ) (2024-02-01T21:44:11Z) - Learning Bounded Context-Free-Grammar via LSTM and the
Transformer:Difference and Explanations [51.77000472945441]
Long Short-Term Memory (LSTM) と Transformer は、自然言語処理タスクに使用される2つの一般的なニューラルネットワークアーキテクチャである。
実際には、トランスフォーマーモデルの方がLSTMよりも表現力が高いことがよく見られる。
本研究では,LSTMとTransformerの実践的差異について検討し,その潜在空間分解パターンに基づく説明を提案する。
論文 参考訳(メタデータ) (2021-12-16T19:56:44Z) - Statistically Meaningful Approximation: a Case Study on Approximating
Turing Machines with Transformers [50.85524803885483]
本研究は,統計的学習性を示すために近似ネットワークを必要とする統計有意(SM)近似の形式的定義を提案する。
回路とチューリングマシンの2つの機能クラスに対するSM近似について検討する。
論文 参考訳(メタデータ) (2021-07-28T04:28:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。