論文の概要: State Space Models are Comparable to Transformers in Estimating Functions with Dynamic Smoothness
- arxiv url: http://arxiv.org/abs/2405.19036v1
- Date: Wed, 29 May 2024 12:23:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 17:20:29.650900
- Title: State Space Models are Comparable to Transformers in Estimating Functions with Dynamic Smoothness
- Title(参考訳): 動的平滑性を考慮した関数推定における状態空間モデルと変圧器の比較
- Authors: Naoki Nishikawa, Taiji Suzuki,
- Abstract要約: 状態空間モデル(SSM)に基づくディープニューラルネットワークは、シーケンスモデリングにおいて多くの注目を集めている。
本稿では,逐次列列関数を推定する観点から,タスクSSMが変換器の代替となるのかを理論的に検討する。
入力シーケンスに応じて滑らかさが変化しても,SSMが目標関数を推定できることを実証する。
- 参考スコア(独自算出の注目度): 41.617269918948686
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks based on state space models (SSMs) are attracting much attention in sequence modeling since their computational cost is significantly smaller than that of Transformers. While the capabilities of SSMs have been primarily investigated through experimental comparisons, theoretical understanding of SSMs is still limited. In particular, there is a lack of statistical and quantitative evaluation of whether SSM can replace Transformers. In this paper, we theoretically explore in which tasks SSMs can be alternatives of Transformers from the perspective of estimating sequence-to-sequence functions. We consider the setting where the target function has direction-dependent smoothness and prove that SSMs can estimate such functions with the same convergence rate as Transformers. Additionally, we prove that SSMs can estimate the target function, even if the smoothness changes depending on the input sequence, as well as Transformers. Our results show the possibility that SSMs can replace Transformers when estimating the functions in certain classes that appear in practice.
- Abstract(参考訳): 状態空間モデル(SSM)に基づくディープニューラルネットワークは、計算コストがトランスフォーマーよりも大幅に小さいため、シーケンスモデリングにおいて大きな注目を集めている。
SSMの能力は実験的な比較によって研究されているが、SSMの理論的理解はいまだに限られている。
特に、SSMがTransformerを置き換えることができるかどうかの統計的、定量的評価が欠如している。
本稿では,タスクSSMが変換器の代替となるのかを,シーケンス・ツー・シーケンス関数の推定の観点から理論的に検討する。
対象関数が方向依存的滑らか性を持つような設定を考慮し、SSMが変換器と同じ収束率でそのような関数を推定できることを示す。
さらに,入力シーケンスによってスムーズさが変化しても,SSMが目標関数を推定できることを示す。
この結果から,実際に現れるクラスの関数を推定する際に,SSMがTransformerを置き換えられる可能性が示唆された。
関連論文リスト
- On the locality bias and results in the Long Range Arena [49.15148871877941]
Long Range ArenaベンチマークはTransformerの改良性能を評価するために設計された。
ステート・スペース・モデル(SSM)のような新しいアーキテクチャは、LRAのトランスフォーマーよりも優れていた。
LRAは長距離依存モデリングのベンチマークであるが、実際にはほとんどのパフォーマンスは短距離依存によるものである。
論文 参考訳(メタデータ) (2025-01-24T15:34:50Z) - SMR: State Memory Replay for Long Sequence Modeling [19.755738298836526]
本稿では並列畳み込み計算における互換性の限界を克服する新しい非再帰的非一様サンプル処理戦略を提案する。
本研究では,学習可能な記憶を利用する状態記憶再生(SMR)を導入し,学習データと異なるサンプリングポイントでの一般化のために,現在の状態を多段階情報で調整する。
自己回帰言語モデリングとLong Range Arenaにおける長距離モデリングタスクの実験は、一連のSSMモデルに対するSMRメカニズムの一般的な効果を実証している。
論文 参考訳(メタデータ) (2024-05-27T17:53:32Z) - The Expressive Capacity of State Space Models: A Formal Language Perspective [0.8948475969696075]
線形状態空間モデル(SSM)に基づくリカレントモデルは、言語モデリング(LM)において有望な性能を示した。
本稿では,変換器や従来のRNNと比較して,そのようなSSMの容量に関する包括的理論的研究を行う。
論文 参考訳(メタデータ) (2024-05-27T17:46:57Z) - Repeat After Me: Transformers are Better than State Space Models at Copying [53.47717661441142]
一般化された状態空間モデルは、推論時間効率の観点からは有望であるが、入力コンテキストからのコピーを必要とするタスクのトランスフォーマーモデルと比較して限定的であることを示す。
論文 参考訳(メタデータ) (2024-02-01T21:44:11Z) - Approximation and Estimation Ability of Transformers for
Sequence-to-Sequence Functions with Infinite Dimensional Input [50.83356836818667]
無限次元入力を持つシーケンス・ツー・シーケンス関数として変換器の近似と推定能力について検討する。
我々の理論的結果は、高次元データに対する変換器の実用的成功を支持する。
論文 参考訳(メタデータ) (2023-05-30T02:44:49Z) - Simplicity Bias in Transformers and their Ability to Learn Sparse
Boolean Functions [29.461559919821802]
最近の研究によると、トランスフォーマーは反復モデルと比較していくつかの形式言語をモデル化するのに苦労している。
このことは、トランスフォーマーが実際になぜうまく機能するのか、また、リカレントモデルよりも良く一般化できるプロパティがあるかどうかという疑問を提起する。
論文 参考訳(メタデータ) (2022-11-22T15:10:48Z) - Your Transformer May Not be as Powerful as You Expect [88.11364619182773]
連続列列列関数を近似できるかどうかに関して, RPE ベースの変換器のパワーを数学的に解析する。
RPEをベースとしたトランスフォーマーでは,ニューラルネットワークの深さや幅がどんなに深くても近似できない連続列列列列関数が存在することを示す。
我々は,その条件を満たす,Universal RPE-based (URPE) Attentionと呼ばれる新しいアテンションモジュールを開発する。
論文 参考訳(メタデータ) (2022-05-26T14:51:30Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。