論文の概要: State Space Models are Provably Comparable to Transformers in Dynamic Token Selection
- arxiv url: http://arxiv.org/abs/2405.19036v2
- Date: Wed, 05 Mar 2025 10:15:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 15:50:06.250940
- Title: State Space Models are Provably Comparable to Transformers in Dynamic Token Selection
- Title(参考訳): 動的トークン選択における状態空間モデルと変圧器との比較
- Authors: Naoki Nishikawa, Taiji Suzuki,
- Abstract要約: 状態空間モデル(SSM)に基づくディープニューラルネットワークは、シーケンスモデリングにおいて大きな注目を集めている。
SSMは入力に応じて重要なトークンを抽出する際にトランスフォーマーに匹敵することを示す。
- 参考スコア(独自算出の注目度): 41.617269918948686
- License:
- Abstract: Deep neural networks based on state space models (SSMs) are attracting significant attention in sequence modeling since their computational cost is much smaller than that of Transformers. While the capabilities of SSMs have been demonstrated through experiments in various tasks, theoretical understanding of SSMs is still limited. In particular, most theoretical studies discuss the capabilities of SSM layers without nonlinear layers, and there is a lack of discussion on their combination with nonlinear layers. In this paper, we explore the capabilities of SSMs combined with fully connected neural networks, and show that they are comparable to Transformers in extracting the essential tokens depending on the input. As concrete examples, we consider two synthetic tasks, which are challenging for a single SSM layer, and demonstrate that SSMs combined with nonlinear layers can efficiently solve these tasks. Furthermore, we study the nonparametric regression task, and prove that the ability of SSMs is equivalent to that of Transformers in estimating functions belonging to a certain class.
- Abstract(参考訳): 状態空間モデル(SSM)に基づくディープニューラルネットワークは、計算コストがトランスフォーマーよりもはるかに小さいため、シーケンスモデリングにおいて大きな注目を集めている。
SSMの能力は様々なタスクの実験を通じて実証されてきたが、SSMの理論的理解はまだ限られている。
特に、ほとんどの理論的研究は非線形層を持たないSSM層の能力について論じており、それらの層と非線形層の組み合わせについては議論の余地がない。
本稿では、完全に接続されたニューラルネットワークと組み合わせたSSMの能力について検討し、入力に応じて重要なトークンを抽出する際にトランスフォーマーに匹敵することを示す。
具体例として,1つのSSM層では難しい2つの合成課題について考察し,非線形層と組み合わせたSSMがこれらの課題を効率的に解決できることを実証する。
さらに、非パラメトリック回帰タスクについて検討し、あるクラスに属する関数を推定する際に、SSMの能力が変換器の能力と等価であることを証明した。
関連論文リスト
- On the locality bias and results in the Long Range Arena [49.15148871877941]
Long Range ArenaベンチマークはTransformerの改良性能を評価するために設計された。
ステート・スペース・モデル(SSM)のような新しいアーキテクチャは、LRAのトランスフォーマーよりも優れていた。
LRAは長距離依存モデリングのベンチマークであるが、実際にはほとんどのパフォーマンスは短距離依存によるものである。
論文 参考訳(メタデータ) (2025-01-24T15:34:50Z) - SMR: State Memory Replay for Long Sequence Modeling [19.755738298836526]
本稿では並列畳み込み計算における互換性の限界を克服する新しい非再帰的非一様サンプル処理戦略を提案する。
本研究では,学習可能な記憶を利用する状態記憶再生(SMR)を導入し,学習データと異なるサンプリングポイントでの一般化のために,現在の状態を多段階情報で調整する。
自己回帰言語モデリングとLong Range Arenaにおける長距離モデリングタスクの実験は、一連のSSMモデルに対するSMRメカニズムの一般的な効果を実証している。
論文 参考訳(メタデータ) (2024-05-27T17:53:32Z) - The Expressive Capacity of State Space Models: A Formal Language Perspective [0.8948475969696075]
線形状態空間モデル(SSM)に基づくリカレントモデルは、言語モデリング(LM)において有望な性能を示した。
本稿では,変換器や従来のRNNと比較して,そのようなSSMの容量に関する包括的理論的研究を行う。
論文 参考訳(メタデータ) (2024-05-27T17:46:57Z) - Repeat After Me: Transformers are Better than State Space Models at Copying [53.47717661441142]
一般化された状態空間モデルは、推論時間効率の観点からは有望であるが、入力コンテキストからのコピーを必要とするタスクのトランスフォーマーモデルと比較して限定的であることを示す。
論文 参考訳(メタデータ) (2024-02-01T21:44:11Z) - Approximation and Estimation Ability of Transformers for
Sequence-to-Sequence Functions with Infinite Dimensional Input [50.83356836818667]
無限次元入力を持つシーケンス・ツー・シーケンス関数として変換器の近似と推定能力について検討する。
我々の理論的結果は、高次元データに対する変換器の実用的成功を支持する。
論文 参考訳(メタデータ) (2023-05-30T02:44:49Z) - Simplicity Bias in Transformers and their Ability to Learn Sparse
Boolean Functions [29.461559919821802]
最近の研究によると、トランスフォーマーは反復モデルと比較していくつかの形式言語をモデル化するのに苦労している。
このことは、トランスフォーマーが実際になぜうまく機能するのか、また、リカレントモデルよりも良く一般化できるプロパティがあるかどうかという疑問を提起する。
論文 参考訳(メタデータ) (2022-11-22T15:10:48Z) - Your Transformer May Not be as Powerful as You Expect [88.11364619182773]
連続列列列関数を近似できるかどうかに関して, RPE ベースの変換器のパワーを数学的に解析する。
RPEをベースとしたトランスフォーマーでは,ニューラルネットワークの深さや幅がどんなに深くても近似できない連続列列列列関数が存在することを示す。
我々は,その条件を満たす,Universal RPE-based (URPE) Attentionと呼ばれる新しいアテンションモジュールを開発する。
論文 参考訳(メタデータ) (2022-05-26T14:51:30Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。