論文の概要: Approximation and Estimation Ability of Transformers for
Sequence-to-Sequence Functions with Infinite Dimensional Input
- arxiv url: http://arxiv.org/abs/2305.18699v1
- Date: Tue, 30 May 2023 02:44:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 18:49:39.447683
- Title: Approximation and Estimation Ability of Transformers for
Sequence-to-Sequence Functions with Infinite Dimensional Input
- Title(参考訳): 無限次元入力列列列関数用変圧器の近似と推定能力
- Authors: Shokichi Takakura, Taiji Suzuki
- Abstract要約: 無限次元入力を持つシーケンス・ツー・シーケンス関数として変換器の近似と推定能力について検討する。
我々の理論的結果は、高次元データに対する変換器の実用的成功を支持する。
- 参考スコア(独自算出の注目度): 50.83356836818667
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the great success of Transformer networks in various applications
such as natural language processing and computer vision, their theoretical
aspects are not well understood. In this paper, we study the approximation and
estimation ability of Transformers as sequence-to-sequence functions with
infinite dimensional inputs. Although inputs and outputs are both infinite
dimensional, we show that when the target function has anisotropic smoothness,
Transformers can avoid the curse of dimensionality due to their feature
extraction ability and parameter sharing property. In addition, we show that
even if the smoothness changes depending on each input, Transformers can
estimate the importance of features for each input and extract important
features dynamically. Then, we proved that Transformers achieve similar
convergence rate as in the case of the fixed smoothness. Our theoretical
results support the practical success of Transformers for high dimensional
data.
- Abstract(参考訳): 自然言語処理やコンピュータビジョンといった様々な応用におけるトランスフォーマーネットワークの成功にもかかわらず、その理論的側面はよく分かっていない。
本稿では,無限次元入力を持つシーケンス列関数として変圧器の近似と推定能力について検討する。
入力と出力はどちらも無限次元であるが、対象関数が異方性滑らか性を持つ場合、トランスフォーマは特徴抽出能力とパラメータ共有性のため次元の呪いを避けることができる。
さらに,入力毎に滑らかさが変化しても,変換器は入力毎に特徴の重要性を推定し,重要な特徴を動的に抽出できることを示す。
その結果, 変圧器は固定平滑度の場合と同様の収束率が得られることがわかった。
本理論は,高次元データに対するトランスフォーマーの実用的成功を支援する。
関連論文リスト
- Approximation of Permutation Invariant Polynomials by Transformers: Efficient Construction in Column-Size [6.9060054915724]
トランスフォーマー(Transformer)は、様々な領域で顕著なパフォーマンスを示すニューラルネットワークの一種である。
本研究では,変圧器の柱対称近似能力について検討した。
論文 参考訳(メタデータ) (2025-02-17T05:56:11Z) - Measure-to-measure interpolation using Transformers [6.13239149235581]
トランスフォーマーは、大規模言語モデルの最近の成功を支えるディープニューラルネットワークアーキテクチャである。
トランスフォーマーは、単位球上の特定の相互作用粒子系として実装された測度から測度マップとして機能する。
パラメータを明示的に選択することで、1つのTransformerが$N$任意の入力測度を$N$任意のターゲット測度にマッチさせることができる。
論文 参考訳(メタデータ) (2024-11-07T09:18:39Z) - Transformers are Expressive, But Are They Expressive Enough for Regression? [38.369337945109855]
この結果から,トランスフォーマーはスムーズな関数を確実に近似するのに苦労し,分割的に一定間隔の近似に頼っていることがわかった。
これらの課題に光を当てることで、トランスフォーマーの能力に関する洗練された理解を提唱する。
論文 参考訳(メタデータ) (2024-02-23T18:12:53Z) - AlgoFormer: An Efficient Transformer Framework with Algorithmic Structures [80.28359222380733]
アルゴリズム機能を備えたトランスフォーマーを実現するために,AlgoFormerと呼ばれる新しいトランスフォーマーフレームワークを設計する。
特に、人間の設計した学習アルゴリズムの構造に触発されて、我々のトランスフォーマーフレームワークは、タスク前処理に責任を持つ事前変換器で構成されています。
いくつかの理論的および実証的な結果は、設計されたトランスフォーマーがアルゴリズム表現と学習を行う可能性があることを示すために提示される。
論文 参考訳(メタデータ) (2024-02-21T07:07:54Z) - Are Transformers with One Layer Self-Attention Using Low-Rank Weight
Matrices Universal Approximators? [37.820617032391404]
低ランクの重み付き自己注意層が入力シーケンス全体のコンテキストを完全にキャプチャする能力を持っていることを示す。
単層および単頭トランスフォーマーは、有限サンプルに対する記憶能力を持ち、2つのフィードフォワードニューラルネットワークを持つ1つの自己アテンション層からなるトランスフォーマーは、コンパクトドメイン上の連続置換同変関数の普遍近似器である。
論文 参考訳(メタデータ) (2023-07-26T08:07:37Z) - Your Transformer May Not be as Powerful as You Expect [88.11364619182773]
連続列列列関数を近似できるかどうかに関して, RPE ベースの変換器のパワーを数学的に解析する。
RPEをベースとしたトランスフォーマーでは,ニューラルネットワークの深さや幅がどんなに深くても近似できない連続列列列列関数が存在することを示す。
我々は,その条件を満たす,Universal RPE-based (URPE) Attentionと呼ばれる新しいアテンションモジュールを開発する。
論文 参考訳(メタデータ) (2022-05-26T14:51:30Z) - Towards Lightweight Transformer via Group-wise Transformation for
Vision-and-Language Tasks [126.33843752332139]
本稿では,LW-Transformerと呼ばれる視覚・言語タスクのための,普遍的で軽量なトランスフォーマーに対するグループワイズ変換を提案する。
LW-Transformerを一組のTransformerベースのネットワークに適用し、3つの視覚・言語タスクと6つのベンチマークデータセットで定量的に測定する。
実験の結果,LW-Transformerは多数のパラメータや計算を節約しながら,視覚・言語タスクのためのトランスフォーマーネットワークと非常に競合する性能を発揮することがわかった。
論文 参考訳(メタデータ) (2022-04-16T11:30:26Z) - Scalable Transformers for Neural Machine Translation [86.4530299266897]
トランスフォーマーは、そのキャパシティとシーケンス生成の並列トレーニングのため、ニューラルネットワーク翻訳(NMT)で広く採用されている。
本稿では,異なるスケールのサブトランスフォーマーを自然に含み,パラメータを共有できる,スケーラブルなトランスフォーマーを提案する。
スケーラブルトランスフォーマーのトレーニングの難しさに対処する3段階のトレーニングスキームが提案されている。
論文 参考訳(メタデータ) (2021-06-04T04:04:10Z) - On the Computational Power of Transformers and its Implications in
Sequence Modeling [10.497742214344855]
特に、位置エンコーディング、アテンションヘッド、残差接続、フィードフォワードネットワークといったトランスフォーマーにおける様々なコンポーネントの役割は明確ではない。
バニラ変換器がチューリング完全であることを示すための代替的で単純な証明を提供する。
さらに、ネットワークのチューリング完全性に対する各コンポーネントの必要性を分析する。
論文 参考訳(メタデータ) (2020-06-16T16:27:56Z) - Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。
十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-20T17:25:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。