論文の概要: Representational Strengths and Limitations of Transformers
- arxiv url: http://arxiv.org/abs/2306.02896v2
- Date: Thu, 16 Nov 2023 14:48:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 20:32:55.855055
- Title: Representational Strengths and Limitations of Transformers
- Title(参考訳): 変圧器の表現強度と限界
- Authors: Clayton Sanford, Daniel Hsu, Matus Telgarsky
- Abstract要約: 我々は,注目層の表現力について,肯定的な結果と否定的な結果の両方を定めている。
トランスにおける大きな埋め込み次元の必要性と役割を示す。
また、注意層によって効率的に解ける自然変種も提示する。
- 参考スコア(独自算出の注目度): 33.659870765923884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attention layers, as commonly used in transformers, form the backbone of
modern deep learning, yet there is no mathematical description of their
benefits and deficiencies as compared with other architectures. In this work we
establish both positive and negative results on the representation power of
attention layers, with a focus on intrinsic complexity parameters such as
width, depth, and embedding dimension. On the positive side, we present a
sparse averaging task, where recurrent networks and feedforward networks all
have complexity scaling polynomially in the input size, whereas transformers
scale merely logarithmically in the input size; furthermore, we use the same
construction to show the necessity and role of a large embedding dimension in a
transformer. On the negative side, we present a triple detection task, where
attention layers in turn have complexity scaling linearly in the input size; as
this scenario seems rare in practice, we also present natural variants that can
be efficiently solved by attention layers. The proof techniques emphasize the
value of communication complexity in the analysis of transformers and related
models, and the role of sparse averaging as a prototypical attention task,
which even finds use in the analysis of triple detection.
- Abstract(参考訳): トランスフォーマーで一般的に使用されるアテンション層は、現代のディープラーニングのバックボーンを形成するが、他のアーキテクチャと比較してそのメリットや欠点を数学的に記述していない。
本研究では,注意層の表現力について,幅,深さ,埋め込み次元といった本質的複雑性パラメータに着目し,正と負の両方の結果を定式化する。
正の面では、再帰ネットワークとフィードフォワードネットワークがすべて入力サイズで多項式的にスケーリングする複雑さを持つ疎平均化タスクを示す一方、トランスフォーマーは入力サイズで対数的にスケールするだけであり、さらにトランスフォーマーにおける大きな埋め込み次元の必要性と役割を示すために同じ構成を用いる。
負の場合、注意層が入力サイズで線形にスケーリングする三重項検出タスクを示す。このシナリオは実際には稀に思えるが、注意層によって効率的に解くことができる自然な変種も提示する。
証明技術は、トランスフォーマおよび関連するモデルの分析における通信複雑性の価値と、三重検出の分析にさえ使われる原型的注意課題としてのスパース平均化の役割を強調している。
関連論文リスト
- CT-MVSNet: Efficient Multi-View Stereo with Cross-scale Transformer [8.962657021133925]
クロススケールトランス(CT)プロセスは、追加計算なしで異なる段階の表現を特徴付ける。
複数のスケールで異なる対話型アテンションの組み合わせを利用する適応型マッチング認識変換器(AMT)を導入する。
また、より細かなコストボリューム構成に大まかにグローバルな意味情報を埋め込む2機能ガイドアグリゲーション(DFGA)も提案する。
論文 参考訳(メタデータ) (2023-12-14T01:33:18Z) - Adaptivity and Modularity for Efficient Generalization Over Task
Complexity [42.748898521364914]
変圧器における適応型およびモジュラー型計算の機構を用いることで,逐次ステップ数に対する一般化を求めるタスクの学習が容易になるかを検討する。
本稿では,ハイパーネットワークからの動的関数生成とユニバーサルトランスの適応深度を組み合わせたHyper-UTアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-10-13T05:29:09Z) - SPION: Layer-Wise Sparse Training of Transformer via Convolutional Flood
Filling [1.0128808054306186]
本稿では,畳み込みフィルタとフラッドフィリング法を統合したトランスフォーマーの新しいスペーサー方式を提案する。
我々のスパーシフィケーションアプローチは、トレーニング中のTransformerの計算複雑性とメモリフットプリントを低減する。
New SPIONは、既存の最先端スパーストランスモデルよりも最大3.08倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2023-09-22T02:14:46Z) - Approximation and Estimation Ability of Transformers for
Sequence-to-Sequence Functions with Infinite Dimensional Input [50.83356836818667]
無限次元入力を持つシーケンス・ツー・シーケンス関数として変換器の近似と推定能力について検討する。
我々の理論的結果は、高次元データに対する変換器の実用的成功を支持する。
論文 参考訳(メタデータ) (2023-05-30T02:44:49Z) - Points to Patches: Enabling the Use of Self-Attention for 3D Shape
Recognition [19.89482062012177]
本稿では,局所的およびグローバルな注意機構を組み合わせた2段階のPoint Transformer-in-Transformer(Point-TnT)アプローチを提案する。
形状分類の実験では、このようなアプローチは、ベースライントランスフォーマーよりも下流タスクに有用な機能を提供している。
また,シーン再構築のための特徴マッチングに拡張し,既存のシーン再構築パイプラインと組み合わせて使用できることを示す。
論文 参考訳(メタデータ) (2022-04-08T09:31:24Z) - P2T: Pyramid Pooling Transformer for Scene Understanding [62.41912463252468]
私たちはP2Tと呼ばれる下流タスク指向のトランスネットワークを構築します。
プールベースのMHSAを組み込んで、P2Tと呼ばれる下流タスク指向のトランスネットワークを構築しました。
論文 参考訳(メタデータ) (2021-06-22T18:28:52Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - Rethinking Skip Connection with Layer Normalization in Transformers and
ResNets [49.87919454950763]
スキップ接続は、ディープニューラルネットワークの性能を改善するために広く使われているテクニックである。
本研究では,スキップ接続の有効性におけるスケール要因について検討する。
論文 参考訳(メタデータ) (2021-05-15T11:44:49Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - Effects of Parameter Norm Growth During Transformer Training: Inductive
Bias from Gradient Descent [44.44543743806831]
本研究では, トレーニング中にこれらの標準間に飽和しながら, 変圧器パラメータが大きくなる傾向について検討した。
パラメータが大きくなるにつれて、ネットワークは飽和活性化関数を持つ離散化されたネットワークに近似することが証明される。
以上の結果から,飽和はNLPに対する特定の関心のGDに暗黙的な誘導バイアスの新たな特徴であることが示唆された。
論文 参考訳(メタデータ) (2020-10-19T17:40:38Z) - Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。
十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-20T17:25:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。