論文の概要: The Illusion of State in State-Space Models
- arxiv url: http://arxiv.org/abs/2404.08819v1
- Date: Fri, 12 Apr 2024 21:30:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 18:32:47.987262
- Title: The Illusion of State in State-Space Models
- Title(参考訳): 状態空間モデルにおける状態のイリュージョン
- Authors: William Merrill, Jackson Petty, Ashish Sabharwal,
- Abstract要約: ステートスペースモデル(SSM)は、大きな言語モデルを構築するための代替アーキテクチャとして考えられる。
我々は,SSMが変圧器のような非リカレントモデルに類似した制約があることを示し,実世界の状態追跡問題を解く能力を制限する可能性があることを示した。
- 参考スコア(独自算出の注目度): 27.57426601905237
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-space models (SSMs) have emerged as a potential alternative architecture for building large language models (LLMs) compared to the previously ubiquitous transformer architecture. One theoretical weakness of transformers is that they cannot express certain kinds of sequential computation and state tracking (Merrill and Sabharwal, 2023), which SSMs are explicitly designed to address via their close architectural similarity to recurrent neural networks (RNNs). But do SSMs truly have an advantage (over transformers) in expressive power for state tracking? Surprisingly, the answer is no. Our analysis reveals that the expressive power of SSMs is limited very similarly to transformers: SSMs cannot express computation outside the complexity class $\mathsf{TC}^0$. In particular, this means they cannot solve simple state-tracking problems like permutation composition. It follows that SSMs are provably unable to accurately track chess moves with certain notation, evaluate code, or track entities in a long narrative. To supplement our formal analysis, we report experiments showing that Mamba-style SSMs indeed struggle with state tracking. Thus, despite its recurrent formulation, the "state" in an SSM is an illusion: SSMs have similar expressiveness limitations to non-recurrent models like transformers, which may fundamentally limit their ability to solve real-world state-tracking problems.
- Abstract(参考訳): ステートスペースモデル(SSM)は、かつてユビキタスであったトランスフォーマーアーキテクチャと比較して、大きな言語モデル(LLM)を構築するための代替アーキテクチャとして出現している。
変換器の理論的弱点の1つは、ある種の逐次計算と状態追跡を表現できないことである(Merrill and Sabharwal, 2023)。
しかし、SSMは状態トラッキングの表現力において本当に(トランスフォーマーよりも)有利なものなのだろうか?
驚いたことに、答えはノーだ。
SSMは複雑性クラス$\mathsf{TC}^0$の外では計算を表現できない。
特にこれは、置換合成のような単純な状態追跡問題を解くことができないことを意味する。
SSMは、特定の表記法でチェスの動きを正確に追跡したり、コードを評価したり、長い物語の中でエンティティを追跡したりすることができない。
フォーマルな分析を補完するため,マンバスタイルのSSMが状態追跡に苦慮していることを示す実験を報告した。
したがって、再帰的な定式化にもかかわらず、SSMの「状態」は錯覚である: SSMは、トランスフォーマーのような非再帰モデルに類似した表現性制限を持ち、現実世界の状態追跡問題の解法を根本的に制限する可能性がある。
関連論文リスト
- Distributed Representations Enable Robust Multi-Timescale Computation in Neuromorphic Hardware [3.961418890143814]
本稿では,ロバストなマルチタイムダイナミックスをアトラクタベースRSNNに組み込む方法について述べる。
対称自己解離重み行列を重畳することにより、有限状態機械をRSNN力学に組み込む。
これにより、ニューロモルフィックハードウェアにおける認知アルゴリズムのための高レベル表現不変抽象言語としてVSAが進歩する。
論文 参考訳(メタデータ) (2024-05-02T14:11:50Z) - Transformers Can Represent $n$-gram Language Models [56.06361029539347]
本稿では,言語モデルの単純かつ歴史的なクラスであるトランスフォーマーLMと$n$-gram LMの関係に注目した。
ハードまたはスパースアテンション機構を用いたトランスフォーマーLMは,任意の$n$-gram LMを正確に表現できることを示す。
論文 参考訳(メタデータ) (2024-04-23T12:51:37Z) - State Space Model for New-Generation Network Alternative to Transformers: A Survey [52.812260379420394]
深層学習時代において、Transformerアーキテクチャは、トレーニング済みのビッグモデルとさまざまなダウンストリームタスクにまたがる強力なパフォーマンスを示してきた。
注意モデルの複雑さをさらに軽減するために、より効率的な手法を設計するための多くの努力がなされている。
その中でも、自己注意に基づくトランスフォーマーモデルの代替として、ステートスペースモデル(SSM)が近年ますます注目を集めている。
論文 参考訳(メタデータ) (2024-04-15T07:24:45Z) - Theoretical Foundations of Deep Selective State-Space Models [14.989266348816749]
ディープSSMは、さまざまなドメインセットで優れたパフォーマンスを示す。
最近の研究で、線形リカレンス電力が入力と隠れ状態の間の乗法的相互作用を可能にすることが示されている。
ランダム線形再帰が単純な入力制御遷移を備える場合、隠れ状態は強力な数学的対象の低次元射影であることを示す。
論文 参考訳(メタデータ) (2024-02-29T11:20:16Z) - On Limitations of the Transformer Architecture [15.329285967441372]
本稿では,関数の領域が十分に大きい場合,Transformer層は関数を構成することができないことを示す。
また,LLMにとって難しいと思われる構成課題の中核にある数種類の数学的タスクは,トランスフォーマーが解けるとは考えにくいことを指摘する。
論文 参考訳(メタデータ) (2024-02-13T01:52:15Z) - Repeat After Me: Transformers are Better than State Space Models at
Copying [57.37277256818516]
一般化された状態空間モデルは、推論時間効率の観点からは有望であるが、入力コンテキストからのコピーを必要とするタスクのトランスフォーマーモデルと比較して限定的であることを示す。
論文 参考訳(メタデータ) (2024-02-01T21:44:11Z) - On the Representational Capacity of Recurrent Neural Language Models [56.19166912044362]
計算時間を持つ有理重み付きRLMは、有理重み付き遷移を持つ決定論的確率的チューリングマシン(PTM)をシミュレートできることを示す。
また, 実時間計算の制約下では, 決定論的実時間有理PTMをシミュレートできることを示した。
論文 参考訳(メタデータ) (2023-10-19T17:39:47Z) - Block-State Transformers [41.57016890030355]
状態空間モデル(SSM)は、長距離依存のモデリングを必要とするタスクに対して印象的な結果を示している。
本稿では,長距離コンテキスト化のためのSSMサブレイヤを内部的に結合したBST(Block-State Transformer)というハイブリッド層を提案する。
我々のモデルは言語モデリングの難易度において類似のTransformerベースのアーキテクチャよりも優れており、より長いシーケンスに一般化できることを示す。
論文 参考訳(メタデータ) (2023-06-15T22:48:08Z) - Learning Bounded Context-Free-Grammar via LSTM and the
Transformer:Difference and Explanations [51.77000472945441]
Long Short-Term Memory (LSTM) と Transformer は、自然言語処理タスクに使用される2つの一般的なニューラルネットワークアーキテクチャである。
実際には、トランスフォーマーモデルの方がLSTMよりも表現力が高いことがよく見られる。
本研究では,LSTMとTransformerの実践的差異について検討し,その潜在空間分解パターンに基づく説明を提案する。
論文 参考訳(メタデータ) (2021-12-16T19:56:44Z) - Statistically Meaningful Approximation: a Case Study on Approximating
Turing Machines with Transformers [50.85524803885483]
本研究は,統計的学習性を示すために近似ネットワークを必要とする統計有意(SM)近似の形式的定義を提案する。
回路とチューリングマシンの2つの機能クラスに対するSM近似について検討する。
論文 参考訳(メタデータ) (2021-07-28T04:28:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。