Fugu-MT 論文翻訳(概要): Parallel Attention and Feed-Forward Net Design for Pre-training and Inference on Transformers

論文の概要: Parallel Attention and Feed-Forward Net Design for Pre-training and Inference on Transformers

arxiv url: http://arxiv.org/abs/2305.13297v1
Date: Mon, 22 May 2023 17:56:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-23 13:41:47.395190
Title: Parallel Attention and Feed-Forward Net Design for Pre-training and Inference on Transformers
Title（参考訳）: 変圧器の予訓練と推論のための並列注意とフィードフォワードネット設計
Authors: Shashank Sonkar, Richard G. Baraniuk
Abstract要約: 本稿ではトランスモデルのための並列注意とフィードフォワードネットデザイン(PAF)を紹介する。 PAFの設計により、各レイヤのFFNブロックは、そのレイヤのアテンションブロックと並行して実行される。両ブロックを並列に実行することは理論的に可能であり、実際は1.5倍から2倍の速さで達成できる。
参考スコア（独自算出の注目度）: 27.943334687742244
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: In this paper, we introduce Parallel Attention and Feed-Forward Net Design (PAF) for transformer models. Transformer models are indisputably the backbone of all Natural Language Processing applications. Therefore, any efforts aimed at improving their efficiency are guaranteed to have an enormous impact. Transformer models consist of many layers and each layer has an attention block followed by a feed-forward network (FFN) that processes the input based on the attention block's output. We refer to this standard design as Series Attention and Feed-Forward Net Design (SAF). For each layer in our proposed PAF design for transformer models, we make FFN block's computations independent of the output of the attention block. This decoupling allows FFN block of each layer to run in parallel to the attention block of that layer. We evaluate PAF design by training two large language models (RoBERTa-large and bert-large-uncased) and comparing them to their SAF counterparts on six tasks of the General Language Understanding (GLUE) benchmark which test a multitude of semantic attributes. PAF models achieves nearly identical performance as their SAF counterparts on all the six tasks. We also compare time complexities of attention blocks with FFN blocks and find that running both blocks in parallel can theoretically and in practice achieve upto 1.5x to 2x gains in speed. We leave the development of fast and efficient libraries for implementation of PAF design for future work.
Abstract（参考訳）: 本稿では,トランスモデルに対する並列注意とフィードフォワードネットデザイン(PAF)を提案する。トランスフォーマーモデルは、すべての自然言語処理アプリケーションのバックボーンであることは間違いない。したがって、効率を向上させるための努力は、大きな影響を与えることが保証される。トランスモデルは多くの層で構成され、各層はアテンションブロックを持ち、それに続くフィードフォワードネットワーク(ffn)はアテンションブロックの出力に基づいて入力を処理する。我々はこの標準設計をシリーズアテンションとフィードフォワードネットデザイン(saf)と呼んでいる。トランスモデルに対して提案したPAF設計の各層に対して,FFNブロックの計算をアテンションブロックの出力とは無関係に行う。この分離により、各レイヤのFFNブロックは、そのレイヤのアテンションブロックと並行して実行される。我々は2つの大きな言語モデル(RoBERTa-largeとbert-large-uncased)をトレーニングし、それらを汎用言語理解(GLUE)ベンチマークの6つのタスクでSAFのモデルと比較することでPAF設計を評価する。 PAFモデルは6つのタスクでSAFとほぼ同じ性能を達成している。また,アテンションブロックの時間複雑性をffnブロックと比較し,両ブロックを並列に実行すると理論的に最大1.5倍から2倍の高速化が達成できることを確認した。 PAF設計のための高速かつ効率的なライブラリの開発を今後の開発に残す。

関連論文リスト

Is Attention Required for Transformer Inference? Explore Function-preserving Attention Replacement [13.38679135071682]
本稿では,事前学習したトランスフォーマーのすべての注意ブロックを学習可能なシーケンス・ツー・シーケンスモジュールに置き換える機能保存型アテンション・リプレースメントフレームワークを提案する。 DeiTビジョントランスファミリ上でFARを検証し、ImageNet上の元のモデルの精度と、パラメータとレイテンシを低減した複数の下流タスクとを一致させることを実証する。
論文参考訳（メタデータ） (2025-05-24T02:23:46Z)
Attention Is Not All You Need: The Importance of Feedforward Networks in Transformer Models [0.0]
最先端のモデルは100以上のトランスフォーマーブロックを持ち、何十億ものトレーニング可能なパラメータを含み、数兆のテキストトークンで訓練される。このようなブロックが少ない3層FFNを持つ変圧器ブロック構成を用いたモデルは、より少ない時間でより少ない総パラメータでトレーニング損失の少ない標準2層構成よりも優れていることを示す。
論文参考訳（メタデータ） (2025-05-10T12:54:21Z)
Prior2Former -- Evidential Modeling of Mask Transformers for Assumption-Free Open-World Panoptic Segmentation [74.55677741919035]
顕在学習に根ざしたセグメンテーション・ビジョン・トランスフォーマの最初のアプローチである Prefer2Former (P2F) を提案する。 P2Fは、ピクセル単位のバイナリマスク割り当てにおいて、モデル不確実性を計算するためのベータを組み込むことで、マスクビジョントランスフォーマーアーキテクチャを拡張している。未知のクラスに対処するほとんどのセグメンテーションモデルとは異なり、P2FはOODデータサンプルへのアクセスや、ヴォイド(ラベルなし)クラスに対する対照的なトレーニングなしで動作する。
論文参考訳（メタデータ） (2025-04-07T08:53:14Z)
A Closer Look at TabPFN v2: Strength, Limitation, and Extension [51.08999772842298]
Tabular Prior-data Fitted Network v2 (TabPFN v2)は、複数のデータセットにまたがる前例のないコンテキスト内学習の精度を達成する。本稿では,300以上のデータセット上でTabPFN v2を評価し,中小規模タスクにおける例外的な一般化機能を確認する。
論文参考訳（メタデータ） (2025-02-24T17:38:42Z)
Shared DIFF Transformer [4.289692335378565]
DIFF変換器は、ノイズを抑えながら、関連するコンテキストに焦点をあてることにより、アテンションアロケーションを改善する。本稿では,大域的パターンをモデル化するための共有基底行列を導入することにより,差動増幅器のアイデアに基づく共有DIFF変換器を提案する。この設計はパラメータの冗長性を著しく低減し、効率を向上し、強いノイズ抑制機能を保持する。
論文参考訳（メタデータ） (2025-01-29T09:29:07Z)
DAPE V2: Process Attention Score as Feature Map for Length Extrapolation [63.87956583202729]
我々は特徴写像としての注意を概念化し、コンピュータビジョンにおける処理方法を模倣するために畳み込み演算子を適用した。様々な注意関係のモデルに適応できる新しい洞察は、現在のTransformerアーキテクチャがさらなる進化の可能性があることを示している。
論文参考訳（メタデータ） (2024-10-07T07:21:49Z)
Equivariant Neural Functional Networks for Transformers [2.3963215252605172]
本稿では,トランスアーキテクチャのためのニューラルネットワーク(NFN)を体系的に検討する。 NFNは、ディープニューラルネットワーク(DNN)の重み、勾配、またはスパーシティパターンを入力データとして扱う特殊なニューラルネットワークである。
論文参考訳（メタデータ） (2024-10-05T15:56:57Z)
FCN: Fusing Exponential and Linear Cross Network for Click-Through Rate Prediction [17.19859591493946]
本稿では,Linear Cross Network (LCN) とExponential Cross Network (ECN) の2つのサブネットワークとともに,Fusing Cross Network (FCN) と呼ばれる新しいモデルを提案する。 FCNは、線形成長と指数成長の両方の機能的相互作用を明示的に捉え、暗黙のDNNに依存する必要をなくす。 6つのベンチマークデータセット上で,FCNの有効性,効率,解釈性を評価する。
論文参考訳（メタデータ） (2024-07-18T09:49:13Z)
How Powerful Potential of Attention on Image Restoration? [97.9777639562205]
FFNを使わずに注意機構の可能性を探るため,実験的検討を行った。本研究では,FFNを使わずに3段階にわたって注意を連続的に計算する連続スケーリング注意法(textbfCSAttn)を提案する。我々の設計は、注意機構をよく調べ、いくつかの単純な操作がモデルの性能に大きく影響することを明らかにする。
論文参考訳（メタデータ） (2024-03-15T14:23:12Z)
FViT: A Focal Vision Transformer with Gabor Filter [6.237269022600682]
視覚変換器とガボルフィルタを組み合わせる利点について論じる。畳み込みを用いた学習可能なGaborフィルタ(LGF)を提案する。バイオニックフォカルビジョン(BFV)ブロックはLGFに基づいて設計されている。 Focal Vision Transformers (FViTs) と呼ばれるピラミッドバックボーンネットワークの統一的で効率的なファミリーを開発した。
論文参考訳（メタデータ） (2024-02-17T15:03:25Z)
Cross-Domain Few-Shot Learning via Adaptive Transformer Networks [16.289485655725013]
本稿では,ドメイン間数ショット学習のための適応型トランスフォーマネットワーク(ADAPTER)を提案する。 ADAPTERは2つのドメイン間で伝達可能な特徴を学習するために双方向の相互注意というアイデアに基づいて構築されている。
論文参考訳（メタデータ） (2024-01-25T07:05:42Z)
One Wide Feedforward is All You Need [3.043080042012617]
Transformer アーキテクチャには,Attention と Feed Forward Network (FFN) の2つの非埋め込みコンポーネントがある。この研究で、FFNの役割を探求し、モデルのパラメータのかなりの部分を占めるにもかかわらず、非常に冗長であることを示す。我々は,デコーダ層上のFFNを除去し,エンコーダ全体で1つのFFNを共有することにより,パラメータ数をわずかに削減できる。
論文参考訳（メタデータ） (2023-09-04T21:30:21Z)
AMT: All-Pairs Multi-Field Transforms for Efficient Frame Interpolation [80.33846577924363]
ビデオフレームギスブのための新しいネットワークアーキテクチャであるAMT(All-Pairs Multi-Field Transforms)を提案する。まず、すべての画素に対して双方向のボリュームを構築し、予測された両側フローを用いて相関関係を検索する。第2に、入力フレーム上で逆向きのワープを行うために、一対の更新された粗い流れから細粒度の流れ場の複数のグループを導出する。
論文参考訳（メタデータ） (2023-04-19T16:18:47Z)
Deeper Insights into ViTs Robustness towards Common Corruptions [82.79764218627558]
我々は、CNNのようなアーキテクチャ設計とCNNベースのデータ拡張戦略が、一般的な汚職に対するViTsの堅牢性にどのように影響するかを検討する。重なり合うパッチ埋め込みと畳み込みフィードフォワードネットワーク(FFN)がロバスト性の向上を実証する。また、2つの角度から入力値の増大を可能にする新しい条件付き手法も導入する。
論文参考訳（メタデータ） (2022-04-26T08:22:34Z)
Adaptive Fourier Neural Operators: Efficient Token Mixers for Transformers [55.90468016961356]
本稿では,Fourierドメインのミキシングを学習する効率的なトークンミキサーを提案する。 AFNOは、演算子学習の原則的基礎に基づいている。 65kのシーケンスサイズを処理でき、他の効率的な自己認識機構より優れている。
論文参考訳（メタデータ） (2021-11-24T05:44:31Z)
DeMFI: Deep Joint Deblurring and Multi-Frame Interpolation with Flow-Guided Attentive Correlation and Recursive Boosting [50.17500790309477]
DeMFI-Netは、共同でデブロアリングとマルチフレームのフレームワークである。低フレームレートのぼやけたビデオを高フレームレートでシャープなビデオに変換する。多様なデータセットに対して、最先端(SOTA)のパフォーマンスを実現する。
論文参考訳（メタデータ） (2021-11-19T00:00:15Z)
Feature Fusion Vision Transformer for Fine-Grained Visual Categorization [22.91753200323264]
我々は、新しい純粋なトランスベースフレームワークFeature Fusion Vision Transformer (FFVT)を提案する。各トランス層から重要なトークンを集約し、ローカル、低レベル、中レベルの情報を補う。我々は,相互注意重み付け (MAWS) と呼ばれる新しいトークン選択モジュールを設計し,ネットワークを効果的かつ効率的に識別トークンの選択に向けて誘導する。
論文参考訳（メタデータ） (2021-07-06T01:48:43Z)
Feature Products Yield Efficient Networks [0.08984782902166921]
本稿では,生物ビジョンの原理に基づく新しいディープネットワークアーキテクチャとして,FP-netを紹介した。各入力特徴写像について、いわゆるFPブロックは2つの異なるフィルタを学習し、その出力を乗算する。本稿では,FPブロックを用いることで,一般化能力を低下させることなくパラメータ数を著しく削減できることを示す。
論文参考訳（メタデータ） (2020-08-18T13:47:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。