論文の概要: Investigating the Role of Feed-Forward Networks in Transformers Using
Parallel Attention and Feed-Forward Net Design
- arxiv url: http://arxiv.org/abs/2305.13297v2
- Date: Thu, 25 May 2023 17:01:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 10:44:29.066900
- Title: Investigating the Role of Feed-Forward Networks in Transformers Using
Parallel Attention and Feed-Forward Net Design
- Title(参考訳): 並列注意とフィードフォワードネット設計を用いたトランスフォーマーにおけるフィードフォワードネットワークの役割の検討
- Authors: Shashank Sonkar, Richard G. Baraniuk
- Abstract要約: 本稿では,Parallel AttentionとFeed-Forward Net Designアーキテクチャを用いて,トランスフォーマモデルにおけるFeed-Forward Networks (FFN) の役割について検討する。
これらの仮定を実証的に検証するために、我々は2つの大きな言語モデル(RoBERTa-largeとbert-large-uncased)のPAF変種を訓練する。
- 参考スコア(独自算出の注目度): 27.943334687742244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates the key role of Feed-Forward Networks (FFNs) in
transformer models by utilizing the Parallel Attention and Feed-Forward Net
Design (PAF) architecture, and comparing it to their Series Attention and
Feed-Forward Net Design (SAF) counterparts. Central to the effectiveness of PAF
are two main assumptions regarding the FFN block and the attention block within
a layer: 1) the primary function of the FFN block is to maintain isotropy among
token embeddings and prevent their degeneration, and 2) the residual norm
computed in the attention block is substantially smaller than the input token
embedding norm. To empirically validate these assumptions, we train PAF
variants of two large language models (RoBERTa-large and bert-large-uncased).
Our results demonstrate that both assumptions hold true in the PAF design. This
study contributes to a deeper understanding of the roles and interactions
between FFNs and self-attention mechanisms in transformer architectures.
- Abstract(参考訳): 本稿では,Parallel Attention and Feed-Forward Net Design (PAF) アーキテクチャを用いてトランスフォーマーモデルにおけるFeed-Forward Networks (FFNs) の役割を解析し,それらをシリーズAtention and Feed-Forward Net Design (SAF) アーキテクチャと比較する。
PAFの有効性の中心は、FFNブロックと層内の注意ブロックに関する2つの主要な仮定である。
1)FFNブロックの主要な機能は、トークンの埋め込みにおける等方性を維持し、その変性を防ぐことである。
2)注意ブロックで計算された残余ノルムは、入力トークン埋め込みノルムよりも実質的に小さい。
これらの仮定を実証的に検証するために、我々は2つの大きな言語モデル(RoBERTa-largeとbert-large-uncased)のPAF変種を訓練する。
以上の結果から,両仮定がPAF設計において真であることを示す。
本研究は,トランスアーキテクチャにおけるFFNと自己認識機構の役割と相互作用の理解に寄与する。
関連論文リスト
- DAPE V2: Process Attention Score as Feature Map for Length Extrapolation [63.87956583202729]
我々は特徴写像としての注意を概念化し、コンピュータビジョンにおける処理方法を模倣するために畳み込み演算子を適用した。
様々な注意関係のモデルに適応できる新しい洞察は、現在のTransformerアーキテクチャがさらなる進化の可能性があることを示している。
論文 参考訳(メタデータ) (2024-10-07T07:21:49Z) - Equivariant Neural Functional Networks for Transformers [2.3963215252605172]
本稿では,トランスアーキテクチャのためのニューラルネットワーク(NFN)を体系的に検討する。
NFNは、ディープニューラルネットワーク(DNN)の重み、勾配、またはスパーシティパターンを入力データとして扱う特殊なニューラルネットワークである。
論文 参考訳(メタデータ) (2024-10-05T15:56:57Z) - How Powerful Potential of Attention on Image Restoration? [97.9777639562205]
FFNを使わずに注意機構の可能性を探るため,実験的検討を行った。
本研究では,FFNを使わずに3段階にわたって注意を連続的に計算する連続スケーリング注意法(textbfCSAttn)を提案する。
我々の設計は、注意機構をよく調べ、いくつかの単純な操作がモデルの性能に大きく影響することを明らかにする。
論文 参考訳(メタデータ) (2024-03-15T14:23:12Z) - Cross-Domain Few-Shot Learning via Adaptive Transformer Networks [16.289485655725013]
本稿では,ドメイン間数ショット学習のための適応型トランスフォーマネットワーク(ADAPTER)を提案する。
ADAPTERは2つのドメイン間で伝達可能な特徴を学習するために双方向の相互注意というアイデアに基づいて構築されている。
論文 参考訳(メタデータ) (2024-01-25T07:05:42Z) - One Wide Feedforward is All You Need [3.043080042012617]
Transformer アーキテクチャには,Attention と Feed Forward Network (FFN) の2つの非埋め込みコンポーネントがある。
この研究で、FFNの役割を探求し、モデルのパラメータのかなりの部分を占めるにもかかわらず、非常に冗長であることを示す。
我々は,デコーダ層上のFFNを除去し,エンコーダ全体で1つのFFNを共有することにより,パラメータ数をわずかに削減できる。
論文 参考訳(メタデータ) (2023-09-04T21:30:21Z) - AMT: All-Pairs Multi-Field Transforms for Efficient Frame Interpolation [80.33846577924363]
ビデオフレームギスブのための新しいネットワークアーキテクチャであるAMT(All-Pairs Multi-Field Transforms)を提案する。
まず、すべての画素に対して双方向のボリュームを構築し、予測された両側フローを用いて相関関係を検索する。
第2に、入力フレーム上で逆向きのワープを行うために、一対の更新された粗い流れから細粒度の流れ場の複数のグループを導出する。
論文 参考訳(メタデータ) (2023-04-19T16:18:47Z) - Deeper Insights into ViTs Robustness towards Common Corruptions [82.79764218627558]
我々は、CNNのようなアーキテクチャ設計とCNNベースのデータ拡張戦略が、一般的な汚職に対するViTsの堅牢性にどのように影響するかを検討する。
重なり合うパッチ埋め込みと畳み込みフィードフォワードネットワーク(FFN)がロバスト性の向上を実証する。
また、2つの角度から入力値の増大を可能にする新しい条件付き手法も導入する。
論文 参考訳(メタデータ) (2022-04-26T08:22:34Z) - Adaptive Fourier Neural Operators: Efficient Token Mixers for
Transformers [55.90468016961356]
本稿では,Fourierドメインのミキシングを学習する効率的なトークンミキサーを提案する。
AFNOは、演算子学習の原則的基礎に基づいている。
65kのシーケンスサイズを処理でき、他の効率的な自己認識機構より優れている。
論文 参考訳(メタデータ) (2021-11-24T05:44:31Z) - DeMFI: Deep Joint Deblurring and Multi-Frame Interpolation with
Flow-Guided Attentive Correlation and Recursive Boosting [50.17500790309477]
DeMFI-Netは、共同でデブロアリングとマルチフレームのフレームワークである。
低フレームレートのぼやけたビデオを高フレームレートでシャープなビデオに変換する。
多様なデータセットに対して、最先端(SOTA)のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-11-19T00:00:15Z) - Feature Fusion Vision Transformer for Fine-Grained Visual Categorization [22.91753200323264]
我々は、新しい純粋なトランスベースフレームワークFeature Fusion Vision Transformer (FFVT)を提案する。
各トランス層から重要なトークンを集約し、ローカル、低レベル、中レベルの情報を補う。
我々は,相互注意重み付け (MAWS) と呼ばれる新しいトークン選択モジュールを設計し,ネットワークを効果的かつ効率的に識別トークンの選択に向けて誘導する。
論文 参考訳(メタデータ) (2021-07-06T01:48:43Z) - Feature Products Yield Efficient Networks [0.08984782902166921]
本稿では,生物ビジョンの原理に基づく新しいディープネットワークアーキテクチャとして,FP-netを紹介した。
各入力特徴写像について、いわゆるFPブロックは2つの異なるフィルタを学習し、その出力を乗算する。
本稿では,FPブロックを用いることで,一般化能力を低下させることなくパラメータ数を著しく削減できることを示す。
論文 参考訳(メタデータ) (2020-08-18T13:47:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。