論文の概要: Parallel Attention and Feed-Forward Net Design for Pre-training and
Inference on Transformers
- arxiv url: http://arxiv.org/abs/2305.13297v1
- Date: Mon, 22 May 2023 17:56:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 13:41:47.395190
- Title: Parallel Attention and Feed-Forward Net Design for Pre-training and
Inference on Transformers
- Title(参考訳): 変圧器の予訓練と推論のための並列注意とフィードフォワードネット設計
- Authors: Shashank Sonkar, Richard G. Baraniuk
- Abstract要約: 本稿ではトランスモデルのための並列注意とフィードフォワードネットデザイン(PAF)を紹介する。
PAFの設計により、各レイヤのFFNブロックは、そのレイヤのアテンションブロックと並行して実行される。
両ブロックを並列に実行することは理論的に可能であり、実際は1.5倍から2倍の速さで達成できる。
- 参考スコア(独自算出の注目度): 27.943334687742244
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we introduce Parallel Attention and Feed-Forward Net Design
(PAF) for transformer models. Transformer models are indisputably the backbone
of all Natural Language Processing applications. Therefore, any efforts aimed
at improving their efficiency are guaranteed to have an enormous impact.
Transformer models consist of many layers and each layer has an attention block
followed by a feed-forward network (FFN) that processes the input based on the
attention block's output. We refer to this standard design as Series Attention
and Feed-Forward Net Design (SAF). For each layer in our proposed PAF design
for transformer models, we make FFN block's computations independent of the
output of the attention block. This decoupling allows FFN block of each layer
to run in parallel to the attention block of that layer. We evaluate PAF design
by training two large language models (RoBERTa-large and bert-large-uncased)
and comparing them to their SAF counterparts on six tasks of the General
Language Understanding (GLUE) benchmark which test a multitude of semantic
attributes. PAF models achieves nearly identical performance as their SAF
counterparts on all the six tasks. We also compare time complexities of
attention blocks with FFN blocks and find that running both blocks in parallel
can theoretically and in practice achieve upto 1.5x to 2x gains in speed. We
leave the development of fast and efficient libraries for implementation of PAF
design for future work.
- Abstract(参考訳): 本稿では,トランスモデルに対する並列注意とフィードフォワードネットデザイン(PAF)を提案する。
トランスフォーマーモデルは、すべての自然言語処理アプリケーションのバックボーンであることは間違いない。
したがって、効率を向上させるための努力は、大きな影響を与えることが保証される。
トランスモデルは多くの層で構成され、各層はアテンションブロックを持ち、それに続くフィードフォワードネットワーク(ffn)はアテンションブロックの出力に基づいて入力を処理する。
我々はこの標準設計をシリーズアテンションとフィードフォワードネットデザイン(saf)と呼んでいる。
トランスモデルに対して提案したPAF設計の各層に対して,FFNブロックの計算をアテンションブロックの出力とは無関係に行う。
この分離により、各レイヤのFFNブロックは、そのレイヤのアテンションブロックと並行して実行される。
我々は2つの大きな言語モデル(RoBERTa-largeとbert-large-uncased)をトレーニングし、それらを汎用言語理解(GLUE)ベンチマークの6つのタスクでSAFのモデルと比較することでPAF設計を評価する。
PAFモデルは6つのタスクでSAFとほぼ同じ性能を達成している。
また,アテンションブロックの時間複雑性をffnブロックと比較し,両ブロックを並列に実行すると理論的に最大1.5倍から2倍の高速化が達成できることを確認した。
PAF設計のための高速かつ効率的なライブラリの開発を今後の開発に残す。
関連論文リスト
- DAPE V2: Process Attention Score as Feature Map for Length Extrapolation [63.87956583202729]
我々は特徴写像としての注意を概念化し、コンピュータビジョンにおける処理方法を模倣するために畳み込み演算子を適用した。
様々な注意関係のモデルに適応できる新しい洞察は、現在のTransformerアーキテクチャがさらなる進化の可能性があることを示している。
論文 参考訳(メタデータ) (2024-10-07T07:21:49Z) - Equivariant Neural Functional Networks for Transformers [2.3963215252605172]
本稿では,トランスアーキテクチャのためのニューラルネットワーク(NFN)を体系的に検討する。
NFNは、ディープニューラルネットワーク(DNN)の重み、勾配、またはスパーシティパターンを入力データとして扱う特殊なニューラルネットワークである。
論文 参考訳(メタデータ) (2024-10-05T15:56:57Z) - How Powerful Potential of Attention on Image Restoration? [97.9777639562205]
FFNを使わずに注意機構の可能性を探るため,実験的検討を行った。
本研究では,FFNを使わずに3段階にわたって注意を連続的に計算する連続スケーリング注意法(textbfCSAttn)を提案する。
我々の設計は、注意機構をよく調べ、いくつかの単純な操作がモデルの性能に大きく影響することを明らかにする。
論文 参考訳(メタデータ) (2024-03-15T14:23:12Z) - Cross-Domain Few-Shot Learning via Adaptive Transformer Networks [16.289485655725013]
本稿では,ドメイン間数ショット学習のための適応型トランスフォーマネットワーク(ADAPTER)を提案する。
ADAPTERは2つのドメイン間で伝達可能な特徴を学習するために双方向の相互注意というアイデアに基づいて構築されている。
論文 参考訳(メタデータ) (2024-01-25T07:05:42Z) - One Wide Feedforward is All You Need [3.043080042012617]
Transformer アーキテクチャには,Attention と Feed Forward Network (FFN) の2つの非埋め込みコンポーネントがある。
この研究で、FFNの役割を探求し、モデルのパラメータのかなりの部分を占めるにもかかわらず、非常に冗長であることを示す。
我々は,デコーダ層上のFFNを除去し,エンコーダ全体で1つのFFNを共有することにより,パラメータ数をわずかに削減できる。
論文 参考訳(メタデータ) (2023-09-04T21:30:21Z) - AMT: All-Pairs Multi-Field Transforms for Efficient Frame Interpolation [80.33846577924363]
ビデオフレームギスブのための新しいネットワークアーキテクチャであるAMT(All-Pairs Multi-Field Transforms)を提案する。
まず、すべての画素に対して双方向のボリュームを構築し、予測された両側フローを用いて相関関係を検索する。
第2に、入力フレーム上で逆向きのワープを行うために、一対の更新された粗い流れから細粒度の流れ場の複数のグループを導出する。
論文 参考訳(メタデータ) (2023-04-19T16:18:47Z) - Deeper Insights into ViTs Robustness towards Common Corruptions [82.79764218627558]
我々は、CNNのようなアーキテクチャ設計とCNNベースのデータ拡張戦略が、一般的な汚職に対するViTsの堅牢性にどのように影響するかを検討する。
重なり合うパッチ埋め込みと畳み込みフィードフォワードネットワーク(FFN)がロバスト性の向上を実証する。
また、2つの角度から入力値の増大を可能にする新しい条件付き手法も導入する。
論文 参考訳(メタデータ) (2022-04-26T08:22:34Z) - Adaptive Fourier Neural Operators: Efficient Token Mixers for
Transformers [55.90468016961356]
本稿では,Fourierドメインのミキシングを学習する効率的なトークンミキサーを提案する。
AFNOは、演算子学習の原則的基礎に基づいている。
65kのシーケンスサイズを処理でき、他の効率的な自己認識機構より優れている。
論文 参考訳(メタデータ) (2021-11-24T05:44:31Z) - DeMFI: Deep Joint Deblurring and Multi-Frame Interpolation with
Flow-Guided Attentive Correlation and Recursive Boosting [50.17500790309477]
DeMFI-Netは、共同でデブロアリングとマルチフレームのフレームワークである。
低フレームレートのぼやけたビデオを高フレームレートでシャープなビデオに変換する。
多様なデータセットに対して、最先端(SOTA)のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-11-19T00:00:15Z) - Feature Fusion Vision Transformer for Fine-Grained Visual Categorization [22.91753200323264]
我々は、新しい純粋なトランスベースフレームワークFeature Fusion Vision Transformer (FFVT)を提案する。
各トランス層から重要なトークンを集約し、ローカル、低レベル、中レベルの情報を補う。
我々は,相互注意重み付け (MAWS) と呼ばれる新しいトークン選択モジュールを設計し,ネットワークを効果的かつ効率的に識別トークンの選択に向けて誘導する。
論文 参考訳(メタデータ) (2021-07-06T01:48:43Z) - Feature Products Yield Efficient Networks [0.08984782902166921]
本稿では,生物ビジョンの原理に基づく新しいディープネットワークアーキテクチャとして,FP-netを紹介した。
各入力特徴写像について、いわゆるFPブロックは2つの異なるフィルタを学習し、その出力を乗算する。
本稿では,FPブロックを用いることで,一般化能力を低下させることなくパラメータ数を著しく削減できることを示す。
論文 参考訳(メタデータ) (2020-08-18T13:47:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。