論文の概要: On the Computational Power of Transformers and its Implications in
Sequence Modeling
- arxiv url: http://arxiv.org/abs/2006.09286v3
- Date: Sat, 10 Oct 2020 13:34:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-20 18:33:52.185581
- Title: On the Computational Power of Transformers and its Implications in
Sequence Modeling
- Title(参考訳): 変圧器の計算力とそのシーケンスモデリングにおける意味について
- Authors: Satwik Bhattamishra, Arkil Patel, Navin Goyal
- Abstract要約: 特に、位置エンコーディング、アテンションヘッド、残差接続、フィードフォワードネットワークといったトランスフォーマーにおける様々なコンポーネントの役割は明確ではない。
バニラ変換器がチューリング完全であることを示すための代替的で単純な証明を提供する。
さらに、ネットワークのチューリング完全性に対する各コンポーネントの必要性を分析する。
- 参考スコア(独自算出の注目度): 10.497742214344855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers are being used extensively across several sequence modeling
tasks. Significant research effort has been devoted to experimentally probe the
inner workings of Transformers. However, our conceptual and theoretical
understanding of their power and inherent limitations is still nascent. In
particular, the roles of various components in Transformers such as positional
encodings, attention heads, residual connections, and feedforward networks, are
not clear. In this paper, we take a step towards answering these questions. We
analyze the computational power as captured by Turing-completeness. We first
provide an alternate and simpler proof to show that vanilla Transformers are
Turing-complete and then we prove that Transformers with only positional
masking and without any positional encoding are also Turing-complete. We
further analyze the necessity of each component for the Turing-completeness of
the network; interestingly, we find that a particular type of residual
connection is necessary. We demonstrate the practical implications of our
results via experiments on machine translation and synthetic tasks.
- Abstract(参考訳): トランスフォーマーはいくつかのシーケンスモデリングタスクで広く使われている。
変圧器の内部動作を実験的に調査する研究が盛んに行われている。
しかし、その力と固有の限界に対する我々の概念的かつ理論的理解はまだ始まったばかりです。
特に、位置符号化、アテンションヘッド、残差接続、フィードフォワードネットワークといったトランスフォーマーにおける様々なコンポーネントの役割は明確ではない。
本稿では,これらの質問に答える上での一歩を踏み出す。
チューリング完全性によって捉えた計算力を解析する。
まず、バニラ変換器がチューリング完全であることを証明し、次に、位置マスキングのみを持ち、位置符号化のない変換器もチューリング完全であることを示す。
さらに,ネットワークのチューリング完全性に対する各コンポーネントの必要性についても検討した。
我々は,機械翻訳と合成タスクの実験を通じて,結果の実用的意義を実証する。
関連論文リスト
- Transformers are Expressive, But Are They Expressive Enough for Regression? [38.369337945109855]
この結果から,トランスフォーマーはスムーズな関数を確実に近似するのに苦労し,分割的に一定間隔の近似に頼っていることがわかった。
これらの課題に光を当てることで、トランスフォーマーの能力に関する洗練された理解を提唱する。
論文 参考訳(メタデータ) (2024-02-23T18:12:53Z) - On the Expressive Power of a Variant of the Looped Transformer [83.30272757948829]
我々はアルゴリズム能力でトランスフォーマーを強化するために、AlgoFormerと呼ばれる新しいトランスフォーマーブロックを設計する。
提案したAlgoFormerは、同じ数のパラメータを使用する場合、アルゴリズム表現においてはるかに高い精度を達成することができる。
いくつかの理論的および実証的な結果は、設計されたトランスフォーマーが、人間設計のアルゴリズムよりも賢い可能性があることを示している。
論文 参考訳(メタデータ) (2024-02-21T07:07:54Z) - Are Transformers with One Layer Self-Attention Using Low-Rank Weight
Matrices Universal Approximators? [37.820617032391404]
低ランクの重み付き自己注意層が入力シーケンス全体のコンテキストを完全にキャプチャする能力を持っていることを示す。
単層および単頭トランスフォーマーは、有限サンプルに対する記憶能力を持ち、2つのフィードフォワードニューラルネットワークを持つ1つの自己アテンション層からなるトランスフォーマーは、コンパクトドメイン上の連続置換同変関数の普遍近似器である。
論文 参考訳(メタデータ) (2023-07-26T08:07:37Z) - Approximation and Estimation Ability of Transformers for
Sequence-to-Sequence Functions with Infinite Dimensional Input [50.83356836818667]
無限次元入力を持つシーケンス・ツー・シーケンス関数として変換器の近似と推定能力について検討する。
我々の理論的結果は、高次元データに対する変換器の実用的成功を支持する。
論文 参考訳(メタデータ) (2023-05-30T02:44:49Z) - How Powerful are Decoder-Only Transformer Neural Models? [0.0]
GPT-xで採用されている基礎技術のチューリング完全性に対処する最初の研究である。
単語埋め込みの空間性/圧縮性はチューリング完全性を維持する上で重要な考慮事項であることを示す。
論文 参考訳(メタデータ) (2023-05-26T15:35:43Z) - An Introduction to Transformers [23.915718146956355]
Transformerは、有用なシーケンスやデータポイントのセットを学ぶために使用できるニューラルネットワークコンポーネントである。
本稿では,トランスアーキテクチャの数学的,正確,直感的,クリーンな記述を目指す。
論文 参考訳(メタデータ) (2023-04-20T14:54:19Z) - Your Transformer May Not be as Powerful as You Expect [88.11364619182773]
連続列列列関数を近似できるかどうかに関して, RPE ベースの変換器のパワーを数学的に解析する。
RPEをベースとしたトランスフォーマーでは,ニューラルネットワークの深さや幅がどんなに深くても近似できない連続列列列列関数が存在することを示す。
我々は,その条件を満たす,Universal RPE-based (URPE) Attentionと呼ばれる新しいアテンションモジュールを開発する。
論文 参考訳(メタデータ) (2022-05-26T14:51:30Z) - On the Power of Saturated Transformers: A View from Circuit Complexity [87.20342701232869]
飽和変圧器はハードアテンション変圧器の限界を超越していることを示す。
硬度から飽和度へのジャンプは、変換器の有効回路深さを$O(log n)$の係数で増加させると解釈できる。
論文 参考訳(メタデータ) (2021-06-30T17:09:47Z) - Thinking Like Transformers [64.96770952820691]
本稿では,プログラミング言語の形式で変換器エンコーダの計算モデルを提案する。
RASPは、トランスフォーマーによって確実に学習できるタスクの解決策をプログラムするのにどのように使えるかを示す。
ヒストグラム、ソート、ダイク言語のためのRASPプログラムを提供する。
論文 参考訳(メタデータ) (2021-06-13T13:04:46Z) - Scalable Transformers for Neural Machine Translation [86.4530299266897]
トランスフォーマーは、そのキャパシティとシーケンス生成の並列トレーニングのため、ニューラルネットワーク翻訳(NMT)で広く採用されている。
本稿では,異なるスケールのサブトランスフォーマーを自然に含み,パラメータを共有できる,スケーラブルなトランスフォーマーを提案する。
スケーラブルトランスフォーマーのトレーニングの難しさに対処する3段階のトレーニングスキームが提案されている。
論文 参考訳(メタデータ) (2021-06-04T04:04:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。