論文の概要: One Wide Feedforward is All You Need
- arxiv url: http://arxiv.org/abs/2309.01826v2
- Date: Sat, 21 Oct 2023 08:33:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 07:42:02.082241
- Title: One Wide Feedforward is All You Need
- Title(参考訳): フィードフォワードは必要なものだけ
- Authors: Telmo Pessoa Pires, Ant\'onio V. Lopes, Yannick Assogba, Hendra
Setiawan
- Abstract要約: Transformer アーキテクチャには,Attention と Feed Forward Network (FFN) の2つの非埋め込みコンポーネントがある。
この研究で、FFNの役割を探求し、モデルのパラメータのかなりの部分を占めるにもかかわらず、非常に冗長であることを示す。
我々は,デコーダ層上のFFNを除去し,エンコーダ全体で1つのFFNを共有することにより,パラメータ数をわずかに削減できる。
- 参考スコア(独自算出の注目度): 3.043080042012617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Transformer architecture has two main non-embedding components: Attention
and the Feed Forward Network (FFN). Attention captures interdependencies
between words regardless of their position, while the FFN non-linearly
transforms each input token independently. In this work we explore the role of
the FFN, and find that despite taking up a significant fraction of the model's
parameters, it is highly redundant. Concretely, we are able to substantially
reduce the number of parameters with only a modest drop in accuracy by removing
the FFN on the decoder layers and sharing a single FFN across the encoder.
Finally we scale this architecture back to its original size by increasing the
hidden dimension of the shared FFN, achieving substantial gains in both
accuracy and latency with respect to the original Transformer Big.
- Abstract(参考訳): Transformerアーキテクチャには、AttentionとFeed Forward Network (FFN)の2つの非埋め込みコンポーネントがある。
注意は単語の位置に関係なく単語間の相互依存を捉え、ffnは非線形に各入力トークンを独立に変換する。
この研究では、ffnの役割を探求し、モデルのパラメータのかなりの部分を占めるにもかかわらず、非常に冗長であることを確認した。
具体的には、デコーダ層上のffnを除去し、エンコーダ全体で単一のffnを共有することで、少ない精度でパラメータ数を大幅に削減することができる。
最後に、このアーキテクチャを、共有FFNの隠れ次元を拡大し、元のTransformer Bigに対して精度とレイテンシの両方で大幅に向上させることにより、元のサイズまで拡張する。
関連論文リスト
- Progressive Token Length Scaling in Transformer Encoders for Efficient Universal Segmentation [67.85309547416155]
ユニバーサルセグメンテーションのための強力なアーキテクチャは、マルチスケールの画像特徴を符号化し、オブジェクトクエリをマスク予測にデコードするトランスフォーマーに依存している。
Mask2Formerはその計算の50%をトランスフォーマーエンコーダでのみ使用する。
これは、エンコーダ層ごとにすべてのバックボーン機能スケールのトークンレベルの完全な表現が保持されているためである。
本稿では,パフォーマンスの犠牲を最小限に抑えながら,計算量を大幅に削減するPro-SCALEを提案する。
論文 参考訳(メタデータ) (2024-04-23T01:34:20Z) - How Powerful Potential of Attention on Image Restoration? [97.9777639562205]
FFNを使わずに注意機構の可能性を探るため,実験的検討を行った。
本研究では,FFNを使わずに3段階にわたって注意を連続的に計算する連続スケーリング注意法(textbfCSAttn)を提案する。
我々の設計は、注意機構をよく調べ、いくつかの単純な操作がモデルの性能に大きく影響することを明らかにする。
論文 参考訳(メタデータ) (2024-03-15T14:23:12Z) - FFSplit: Split Feed-Forward Network For Optimizing Accuracy-Efficiency
Trade-off in Language Model Inference [57.119047493787185]
本稿では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56times$wall clock time speedupを無視できる精度低下で実現する方法を示す。
実際、本手法では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56Times$wall clock time speedupを無視できる精度で実現している。
論文 参考訳(メタデータ) (2024-01-08T17:29:16Z) - PartialFormer: Modeling Part Instead of Whole for Machine Translation [40.67489864907433]
より小さなFFNを利用するパラメータ効率のよいトランスフォーマーアーキテクチャであるPartialFormerを紹介する。
これらの小さなFFNは、効果的なコラボレーションのためのマルチヘッドアテンションメカニズムに統合される。
9つの翻訳タスクと1つの抽象的な要約タスクの実験により、PartialFormerアプローチの有効性が検証された。
論文 参考訳(メタデータ) (2023-10-23T13:25:54Z) - Full Transformer Framework for Robust Point Cloud Registration with Deep
Information Interaction [9.431484068349903]
最近のTransformerベースの手法は、ポイントクラウドの登録において高度なパフォーマンスを実現している。
近年のCNNは、現地の受容によるグローバルな関係のモデル化に失敗している。
トランスフォーマーの幅の浅いアーキテクチャと位置エンコーディングの欠如は、不明瞭な特徴抽出につながる。
論文 参考訳(メタデータ) (2021-12-17T08:40:52Z) - Adaptive Fourier Neural Operators: Efficient Token Mixers for
Transformers [55.90468016961356]
本稿では,Fourierドメインのミキシングを学習する効率的なトークンミキサーを提案する。
AFNOは、演算子学習の原則的基礎に基づいている。
65kのシーケンスサイズを処理でき、他の効率的な自己認識機構より優れている。
論文 参考訳(メタデータ) (2021-11-24T05:44:31Z) - Towards Deep and Efficient: A Deep Siamese Self-Attention Fully
Efficient Convolutional Network for Change Detection in VHR Images [28.36808011351123]
EffCDNetという非常に深く効率的なCDネットワークを提示する。
EffCDNetでは、ディープワイド畳み込みとチャネルシャッフル機構によるグループ畳み込みからなる効率的な畳み込みが導入された。
難易度の高い2つのCDデータセットにおいて、本手法は他のSOTA FCN法よりも優れている。
論文 参考訳(メタデータ) (2021-08-18T14:02:38Z) - Unifying Global-Local Representations in Salient Object Detection with Transformer [55.23033277636774]
我々は、視覚変換器という新しいアテンションベースのエンコーダを有能な物体検出に導入する。
非常に浅い層でのグローバルビューでは、トランスフォーマーエンコーダはより局所的な表現を保持する。
提案手法は,5つのベンチマークにおいて,他のFCN法およびトランスフォーマー法よりも優れていた。
論文 参考訳(メタデータ) (2021-08-05T17:51:32Z) - ResT: An Efficient Transformer for Visual Recognition [5.807423409327807]
本稿では、画像認識のための汎用バックボーンとして機能する、ResTと呼ばれる効率的なマルチスケール視覚変換器を提案する。
提案したResTは、最近の最先端のバックボーンよりも大きなマージンで、ResTの強力なバックボーンとしての可能性を示している。
論文 参考訳(メタデータ) (2021-05-28T08:53:54Z) - Rate Region for Indirect Multiterminal Source Coding in Federated
Learning [49.574683687858126]
多数のエッジデバイスは、ローカルモデルの各ラウンドでアップデートをエッジに送信します。
既存の作品は、異なるエッジによって送信される情報の焦点を活用しない。
本稿では,間接多端音源符号化 fl のレート領域について検討する。
論文 参考訳(メタデータ) (2021-01-21T16:17:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。