論文の概要: Simplifying Transformer Blocks
- arxiv url: http://arxiv.org/abs/2311.01906v2
- Date: Fri, 31 May 2024 11:14:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-03 20:31:38.644815
- Title: Simplifying Transformer Blocks
- Title(参考訳): トランスフォーマーブロックの簡易化
- Authors: Bobby He, Thomas Hofmann,
- Abstract要約: この作業では、標準のトランスフォーマーブロックをどの程度単純化できるかを問う。
トレーニング速度を損なうことなく、多くのブロックコンポーネントを削除できる修正をモチベーションします。
自己回帰デコーダオンリーモデルとBERTエンコーダオンリーモデルの両方の実験では,更新時間当たりのトレーニング速度と性能を簡易化したトランスフォーマをエミュレートした。
- 参考スコア(独自算出の注目度): 30.451976405521112
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A simple design recipe for deep Transformers is to compose identical building blocks. But standard transformer blocks are far from simple, interweaving attention and MLP sub-blocks with skip connections & normalisation layers in precise arrangements. This complexity leads to brittle architectures, where seemingly minor changes can significantly reduce training speed, or render models untrainable. In this work, we ask to what extent the standard transformer block can be simplified? Combining signal propagation theory and empirical observations, we motivate modifications that allow many block components to be removed with no loss of training speed, including skip connections, projection or value parameters, sequential sub-blocks and normalisation layers. In experiments on both autoregressive decoder-only and BERT encoder-only models, our simplified transformers emulate the per-update training speed and performance of standard transformers, while enjoying 15% faster training throughput, and using 15% fewer parameters.
- Abstract(参考訳): ディープトランスフォーマーのためのシンプルな設計レシピは、同じビルディングブロックを構成することである。
しかし、標準のトランスフォーマーブロックは、正確に配置されたスキップ接続と正規化レイヤを備えた単純なインターウィーブアテンションやMPPサブブロックとは程遠い。
この複雑さは、微妙な変更がトレーニング速度を大幅に削減したり、トレーニング不可能なモデルをレンダリングする、不安定なアーキテクチャにつながります。
この作業では、標準のトランスフォーマーブロックをどの程度単純化できるかを問う。
信号伝搬理論と経験的観測を組み合わせることで、スキップ接続、投影または値パラメータ、シーケンシャルサブブロック、正規化層を含む、多くのブロックコンポーネントをトレーニング速度の損失なしに除去できる修正を動機付けます。
自己回帰デコーダオンリーモデルとBERTエンコーダオンモデルの両方の実験では、標準トランスの更新毎のトレーニング速度と性能をエミュレートし、15%高速なトレーニングスループットを享受し、15%少ないパラメータを使用する。
関連論文リスト
- Modular Transformers: Compressing Transformers into Modularized Layers
for Flexible Efficient Inference [83.01121484432801]
本稿では,フレキシブルシーケンス・ツー・シーケンス・モデル圧縮のためのモジュール化エンコーダ・デコーダ・フレームワークであるModular Transformersを紹介する。
単一のトレーニングフェーズの後、Modular Transformerは1.1xから6xまでのフレキシブルな圧縮比を、相対的な相対的な性能低下の少ない状態で達成することができる。
論文 参考訳(メタデータ) (2023-06-04T15:26:28Z) - Deep Transformers without Shortcuts: Modifying Self-attention for
Faithful Signal Propagation [105.22961467028234]
ディープニューラルネットワーク(DNN)のトレーニングにおいて,スキップ接続と正規化レイヤはユビキタスである
Deep Kernel Shapingのような最近のアプローチは、それらへの依存を減らすために進歩しました。
しかし、これらのアプローチは変換器に存在する自己注意層とは相容れない。
論文 参考訳(メタデータ) (2023-02-20T21:26:25Z) - A K-variate Time Series Is Worth K Words: Evolution of the Vanilla
Transformer Architecture for Long-term Multivariate Time Series Forecasting [52.33042819442005]
トランスフォーマーはMTSFのデファクトソリューションとなっている。
本研究では,MTSFトランスフォーマーアーキテクチャにおける現在のトークン化戦略がトランスフォーマーのトークン帰納バイアスを無視していることを指摘した。
バニラMTSF変圧器の基本構造について一連の進化を行った。
驚いたことに、進化した単純変圧器アーキテクチャは非常に効果的であり、バニラMTSF変圧器の過密現象を回避することに成功している。
論文 参考訳(メタデータ) (2022-12-06T07:00:31Z) - Error Correction Code Transformer [92.10654749898927]
本稿では,トランスフォーマーアーキテクチャを任意のブロック長で線形符号のソフトデコードに拡張することを提案する。
我々は,各チャネルの出力次元を高次元に符号化し,個別に処理すべきビット情報のより良い表現を行う。
提案手法は、トランスフォーマーの極端なパワーと柔軟性を示し、既存の最先端のニューラルデコーダを、その時間的複雑さのごく一部で大きなマージンで上回る。
論文 参考訳(メタデータ) (2022-03-27T15:25:58Z) - Sparse is Enough in Scaling Transformers [12.561317511514469]
大規模なTransformerモデルは、多くのタスクにおいて印象的な結果をもたらすが、トレーニングや微調整は高価であり、デコードが遅いため、使用と研究が手に入らない。
本稿では,スパース層を用いた次世代トランスフォーマーモデルのファミリーであるScaling Transformerを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:53:46Z) - Stable, Fast and Accurate: Kernelized Attention with Relative Positional
Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。
相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文 参考訳(メタデータ) (2021-06-23T17:51:26Z) - Incorporating Convolution Designs into Visual Transformers [24.562955955312187]
我々は、低レベル特徴抽出におけるCNNの利点、局所性の向上、長距離依存の確立におけるトランスフォーマーの利点を組み合わせた新しいtextbfConvolution-enhanced image Transformer (CeiT) を提案する。
ImageNetと7つの下流タスクの実験結果は、大量のトレーニングデータや追加のCNN教師を必要とすることなく、従来のトランスフォーマーや最先端CNNと比較してCeiTの有効性と一般化能力を示している。
論文 参考訳(メタデータ) (2021-03-22T13:16:12Z) - On Layer Normalization in the Transformer Architecture [112.40350994368741]
まず,学習速度のウォームアップが重要である理由を理論的に検討し,レイヤー正規化の位置が重要であることを示す。
ウォームアップステージのないPre-LNトランスフォーマーはベースラインと同等の結果が得られることを示す。
論文 参考訳(メタデータ) (2020-02-12T00:33:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。