Fugu-MT 論文翻訳(概要): Representational Strengths and Limitations of Transformers

論文の概要: Representational Strengths and Limitations of Transformers

arxiv url: http://arxiv.org/abs/2306.02896v2
Date: Thu, 16 Nov 2023 14:48:16 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-17 20:32:55.855055
Title: Representational Strengths and Limitations of Transformers
Title（参考訳）: 変圧器の表現強度と限界
Authors: Clayton Sanford, Daniel Hsu, Matus Telgarsky
Abstract要約: 我々は,注目層の表現力について,肯定的な結果と否定的な結果の両方を定めている。トランスにおける大きな埋め込み次元の必要性と役割を示す。また、注意層によって効率的に解ける自然変種も提示する。
参考スコア（独自算出の注目度）: 33.659870765923884
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Attention layers, as commonly used in transformers, form the backbone of modern deep learning, yet there is no mathematical description of their benefits and deficiencies as compared with other architectures. In this work we establish both positive and negative results on the representation power of attention layers, with a focus on intrinsic complexity parameters such as width, depth, and embedding dimension. On the positive side, we present a sparse averaging task, where recurrent networks and feedforward networks all have complexity scaling polynomially in the input size, whereas transformers scale merely logarithmically in the input size; furthermore, we use the same construction to show the necessity and role of a large embedding dimension in a transformer. On the negative side, we present a triple detection task, where attention layers in turn have complexity scaling linearly in the input size; as this scenario seems rare in practice, we also present natural variants that can be efficiently solved by attention layers. The proof techniques emphasize the value of communication complexity in the analysis of transformers and related models, and the role of sparse averaging as a prototypical attention task, which even finds use in the analysis of triple detection.
Abstract（参考訳）: トランスフォーマーで一般的に使用されるアテンション層は、現代のディープラーニングのバックボーンを形成するが、他のアーキテクチャと比較してそのメリットや欠点を数学的に記述していない。本研究では,注意層の表現力について,幅,深さ,埋め込み次元といった本質的複雑性パラメータに着目し,正と負の両方の結果を定式化する。正の面では、再帰ネットワークとフィードフォワードネットワークがすべて入力サイズで多項式的にスケーリングする複雑さを持つ疎平均化タスクを示す一方、トランスフォーマーは入力サイズで対数的にスケールするだけであり、さらにトランスフォーマーにおける大きな埋め込み次元の必要性と役割を示すために同じ構成を用いる。負の場合、注意層が入力サイズで線形にスケーリングする三重項検出タスクを示す。このシナリオは実際には稀に思えるが、注意層によって効率的に解くことができる自然な変種も提示する。証明技術は、トランスフォーマおよび関連するモデルの分析における通信複雑性の価値と、三重検出の分析にさえ使われる原型的注意課題としてのスパース平均化の役割を強調している。

関連論文リスト

On the Expressive Power of Transformers for Maxout Networks and Continuous Piecewise Linear Functions [8.192218166714422]
トランスフォーマーネットワークは幅広い応用において顕著な経験的成功を遂げてきたが、理論的な表現力は未だ十分に理解されていない。まずトランスフォーマーネットワークによる最大化ネットワークの明示的な近似を確立し,これと同等のモデル複雑性を保ったままにしておく。その結果、トランスフォーマーは同様の複雑性制約の下でReLUネットワークの普遍近似能力を継承する。
論文参考訳（メタデータ） (2026-03-03T15:27:15Z)
DAPE V2: Process Attention Score as Feature Map for Length Extrapolation [63.87956583202729]
我々は特徴写像としての注意を概念化し、コンピュータビジョンにおける処理方法を模倣するために畳み込み演算子を適用した。様々な注意関係のモデルに適応できる新しい洞察は、現在のTransformerアーキテクチャがさらなる進化の可能性があることを示している。
論文参考訳（メタデータ） (2024-10-07T07:21:49Z)
Positional Attention: Expressivity and Learnability of Algorithmic Computation [6.181408276896225]
この研究は、アルゴリズム実行におけるトランスフォーマーにおける注意の役割をよりよく理解することを目的としている。位置対応変換器(位置対応変換器)は並列計算モデルと同じ表現性を持つことを示す。パラメータノルムにより良い理論的依存を示す一方で、特定のタスクはより多くの層を必要とする可能性がある。
論文参考訳（メタデータ） (2024-10-02T15:55:08Z)
Skip-Layer Attention: Bridging Abstract and Detailed Dependencies in Transformers [56.264673865476986]
本稿では、Transformerモデルを強化するためのSLA(Skip-Layer Attention)を提案する。 SLAは、高レベルの抽象機能と低レベルの詳細の間の依存関係をキャプチャするモデルの能力を改善します。我々の実装は、与えられたレイヤ内のクエリが、現在のレイヤと前のレイヤの両方のキーと値とやり取りできるようにすることで、Transformerの機能を拡張します。
論文参考訳（メタデータ） (2024-06-17T07:24:38Z)
Separations in the Representational Capabilities of Transformers and Recurrent Architectures [27.783705012503237]
我々は,トランスフォーマーとRNNの表現能力の違いを,実践的妥当性のいくつかのタスクで分析する。対数幅の一層変換器がインデックス検索を行うのに対し、RNNは線形サイズを隠蔽する必要があることを示す。また、ログサイズの2層トランスは、最寄りのアルゴリズムをフォワードパスで実装できることを示す。
論文参考訳（メタデータ） (2024-06-13T17:31:30Z)
CT-MVSNet: Efficient Multi-View Stereo with Cross-scale Transformer [8.962657021133925]
クロススケールトランス(CT)プロセスは、追加計算なしで異なる段階の表現を特徴付ける。複数のスケールで異なる対話型アテンションの組み合わせを利用する適応型マッチング認識変換器(AMT)を導入する。また、より細かなコストボリューム構成に大まかにグローバルな意味情報を埋め込む2機能ガイドアグリゲーション(DFGA)も提案する。
論文参考訳（メタデータ） (2023-12-14T01:33:18Z)
Adaptivity and Modularity for Efficient Generalization Over Task Complexity [42.748898521364914]
変圧器における適応型およびモジュラー型計算の機構を用いることで,逐次ステップ数に対する一般化を求めるタスクの学習が容易になるかを検討する。本稿では,ハイパーネットワークからの動的関数生成とユニバーサルトランスの適応深度を組み合わせたHyper-UTアーキテクチャを提案する。
論文参考訳（メタデータ） (2023-10-13T05:29:09Z)
Points to Patches: Enabling the Use of Self-Attention for 3D Shape Recognition [19.89482062012177]
本稿では,局所的およびグローバルな注意機構を組み合わせた2段階のPoint Transformer-in-Transformer(Point-TnT)アプローチを提案する。形状分類の実験では、このようなアプローチは、ベースライントランスフォーマーよりも下流タスクに有用な機能を提供している。また,シーン再構築のための特徴マッチングに拡張し,既存のシーン再構築パイプラインと組み合わせて使用できることを示す。
論文参考訳（メタデータ） (2022-04-08T09:31:24Z)
P2T: Pyramid Pooling Transformer for Scene Understanding [62.41912463252468]
私たちはP2Tと呼ばれる下流タスク指向のトランスネットワークを構築します。プールベースのMHSAを組み込んで、P2Tと呼ばれる下流タスク指向のトランスネットワークを構築しました。
論文参考訳（メタデータ） (2021-06-22T18:28:52Z)
Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文参考訳（メタデータ） (2021-05-29T05:26:07Z)
Transformers Solve the Limited Receptive Field for Monocular Depth Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文参考訳（メタデータ） (2021-03-22T18:00:13Z)
Effects of Parameter Norm Growth During Transformer Training: Inductive Bias from Gradient Descent [44.44543743806831]
本研究では, トレーニング中にこれらの標準間に飽和しながら, 変圧器パラメータが大きくなる傾向について検討した。パラメータが大きくなるにつれて、ネットワークは飽和活性化関数を持つ離散化されたネットワークに近似することが証明される。以上の結果から,飽和はNLPに対する特定の関心のGDに暗黙的な誘導バイアスの新たな特徴であることが示唆された。
論文参考訳（メタデータ） (2020-10-19T17:40:38Z)
Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文参考訳（メタデータ） (2020-05-20T17:25:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。