論文の概要: When Do Transformers Outperform Feedforward and Recurrent Networks? A Statistical Perspective
- arxiv url: http://arxiv.org/abs/2503.11272v1
- Date: Fri, 14 Mar 2025 10:30:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:09:14.341025
- Title: When Do Transformers Outperform Feedforward and Recurrent Networks? A Statistical Perspective
- Title(参考訳): トランスフォーマーはフィードフォワードとリカレントネットワークを上回っているか? : 統計的視点
- Authors: Alireza Mousavi-Hosseini, Clayton Sanford, Denny Wu, Murat A. Erdogdu,
- Abstract要約: フィードフォワードとリカレントニューラルネットワークはトランスフォーマーに比べてサンプルの複雑さが大きいことが証明された。
提案したスパース検索モデルは,これらのアーキテクチャにおけるサンプルの複雑さの自然な階層構造を示す。
- 参考スコア(独自算出の注目度): 22.831594980764216
- License:
- Abstract: Theoretical efforts to prove advantages of Transformers in comparison with classical architectures such as feedforward and recurrent neural networks have mostly focused on representational power. In this work, we take an alternative perspective and prove that even with infinite compute, feedforward and recurrent networks may suffer from larger sample complexity compared to Transformers, as the latter can adapt to a form of dynamic sparsity. Specifically, we consider a sequence-to-sequence data generating model on sequences of length $N$, in which the output at each position depends only on $q$ relevant tokens with $q \ll N$, and the positions of these tokens are described in the input prompt. We prove that a single-layer Transformer can learn this model if and only if its number of attention heads is at least $q$, in which case it achieves a sample complexity almost independent of $N$, while recurrent networks require $N^{\Omega(1)}$ samples on the same problem. If we simplify this model, recurrent networks may achieve a complexity almost independent of $N$, while feedforward networks still require $N$ samples. Consequently, our proposed sparse retrieval model illustrates a natural hierarchy in sample complexity across these architectures.
- Abstract(参考訳): フィードフォワードやリカレントニューラルネットワークのような古典的アーキテクチャと比較してトランスフォーマーの利点を証明する理論的努力は、主に表現力に焦点を当てている。
本研究では, 無限の計算, フィードフォワード, リカレントネットワークであっても, トランスフォーマーに比べてサンプリングの複雑さが大きく, 後者は動的空間に適応できることを示す。
具体的には、長さ$N$のシーケンス上のシーケンス間データ生成モデルについて検討し、各位置の出力は$q$関連トークンと$q \ll N$のみに依存し、これらのトークンの位置を入力プロンプトに記述する。
単層トランスフォーマーがこのモデルを学習できることは、注意ヘッドの数が少なくとも$q$である場合に限り証明し、同じ問題に対して$N^{\Omega(1)}$のサンプルを必要とするのに対して、$N$とほぼ独立なサンプル複雑性を達成できる。
このモデルを単純化すれば、リカレントネットワークは$N$とは独立に複雑さを達成できるが、フィードフォワードネットワークはなおも$N$のサンプルを必要とする。
その結果,提案したスパース検索モデルでは,これらのアーキテクチャにおけるサンプルの複雑さの自然な階層構造が示される。
関連論文リスト
- The Sample Complexity of Online Reinforcement Learning: A Multi-model Perspective [55.15192437680943]
連続状態と行動空間を持つ非線形力学系に対するオンライン強化学習のサンプル複雑性について検討した。
我々のアルゴリズムは、その単純さ、事前知識を組み込む能力、そして良心的な過渡的行動のために、実際に有用である可能性が高い。
論文 参考訳(メタデータ) (2025-01-27T10:01:28Z) - On the Role of Depth and Looping for In-Context Learning with Task Diversity [69.4145579827826]
多様なタスクを伴う線形回帰のための文脈内学習について検討する。
We show that multilayer Transformer is not robust to even distributional shifts as $O(e-L)$ in Wasserstein distance。
論文 参考訳(メタデータ) (2024-10-29T03:27:56Z) - Pruning is Optimal for Learning Sparse Features in High-Dimensions [15.967123173054535]
本研究では,勾配勾配勾配で学習したプルーンドニューラルネットワークを用いて,統計モデルのクラスを最適に学習可能であることを示す。
ニューラルネットワークのプルーニングが$boldsymbolV$のスパーシリティレベルに比例すると、未切断ネットワークと比較してサンプルの複雑さが向上することを示す。
論文 参考訳(メタデータ) (2024-06-12T21:43:12Z) - Refined Kolmogorov Complexity of Analog, Evolving and Stochastic
Recurrent Neural Networks [0.0]
我々は, 実重のコルモゴロフ複雑性, 進化重み, 実確率に基づいて, アナログ, 進化, ニューラルネットワークの超チューリング計算能力の洗練された特徴付けを行う。
論文 参考訳(メタデータ) (2023-09-29T07:38:50Z) - Deep Neural Networks with Efficient Guaranteed Invariances [77.99182201815763]
我々は、性能改善の問題、特にディープニューラルネットワークのサンプル複雑性に対処する。
群同変畳み込みは同変表現を得るための一般的なアプローチである。
本稿では,各ストリームが異なる変換に不変なマルチストリームアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-03-02T20:44:45Z) - Transformers Learn Shortcuts to Automata [52.015990420075944]
低深度変換器は任意の有限状態オートマトンを計算できる。
我々は,$O(log T)$レイヤを持つ変換器が,長さ$T$の入力シーケンス上で,オートマトンを正確に再現可能であることを示す。
さらに、これらの解の脆性について検討し、潜在的な緩和を提案する。
論文 参考訳(メタデータ) (2022-10-19T17:45:48Z) - Distributed Sparse Feature Selection in Communication-Restricted
Networks [6.9257380648471765]
疎線形回帰と特徴選択のための新しい分散スキームを提案し,理論的に解析する。
データセット全体から因果次元を推定するために,ネットワーク内の情報共有をシンプルかつ効果的に行う手法を提案する。
論文 参考訳(メタデータ) (2021-11-02T05:02:24Z) - Statistically Meaningful Approximation: a Case Study on Approximating
Turing Machines with Transformers [50.85524803885483]
本研究は,統計的学習性を示すために近似ネットワークを必要とする統計有意(SM)近似の形式的定義を提案する。
回路とチューリングマシンの2つの機能クラスに対するSM近似について検討する。
論文 参考訳(メタデータ) (2021-07-28T04:28:55Z) - Stable Recovery of Entangled Weights: Towards Robust Identification of
Deep Neural Networks from Minimal Samples [0.0]
連続した層の重みを、活性化関数とそのシフトに応じて適切な対角行列と反転行列と絡み合ういわゆる絡み合い重みを紹介します。
エンタングル重みは効率的でロバストなアルゴリズムによって完全かつ安定に近似することが証明される。
本研究は,入力出力情報をネットワークパラメータに一意かつ安定的に関連付けることができ,説明可能性の一形態を提供する。
論文 参考訳(メタデータ) (2021-01-18T16:31:19Z) - $O(n)$ Connections are Expressive Enough: Universal Approximability of
Sparse Transformers [71.31712741938837]
注意層ごとに$O(n)$接続しか持たないスパース変換器は、$n2$接続を持つ高密度モデルと同じ関数クラスを近似できることを示す。
また、標準NLPタスクにおいて、異なるパターン・レベルの違いを比較検討する。
論文 参考訳(メタデータ) (2020-06-08T18:30:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。