論文の概要: Deep Transformers without Shortcuts: Modifying Self-attention for
Faithful Signal Propagation
- arxiv url: http://arxiv.org/abs/2302.10322v1
- Date: Mon, 20 Feb 2023 21:26:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-22 17:11:27.507575
- Title: Deep Transformers without Shortcuts: Modifying Self-attention for
Faithful Signal Propagation
- Title(参考訳): ショートカットのないディープトランスフォーマー:忠実な信号伝達のための自己注意の修正
- Authors: Bobby He, James Martens, Guodong Zhang, Aleksandar Botev, Andrew
Brock, Samuel L Smith, Yee Whye Teh
- Abstract要約: ディープニューラルネットワーク(DNN)のトレーニングにおいて,スキップ接続と正規化レイヤはユビキタスである
Deep Kernel Shapingのような最近のアプローチは、それらへの依存を減らすために進歩しました。
しかし、これらのアプローチは変換器に存在する自己注意層とは相容れない。
- 参考スコア(独自算出の注目度): 105.22961467028234
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Skip connections and normalisation layers form two standard architectural
components that are ubiquitous for the training of Deep Neural Networks (DNNs),
but whose precise roles are poorly understood. Recent approaches such as Deep
Kernel Shaping have made progress towards reducing our reliance on them, using
insights from wide NN kernel theory to improve signal propagation in vanilla
DNNs (which we define as networks without skips or normalisation). However,
these approaches are incompatible with the self-attention layers present in
transformers, whose kernels are intrinsically more complicated to analyse and
control. And so the question remains: is it possible to train deep vanilla
transformers? We answer this question in the affirmative by designing several
approaches that use combinations of parameter initialisations, bias matrices
and location-dependent rescaling to achieve faithful signal propagation in
vanilla transformers. Our methods address various intricacies specific to
signal propagation in transformers, including the interaction with positional
encoding and causal masking. In experiments on WikiText-103 and C4, our
approaches enable deep transformers without normalisation to train at speeds
matching their standard counterparts, and deep vanilla transformers to reach
the same performance as standard ones after about 5 times more iterations.
- Abstract(参考訳): スキップ接続と正規化レイヤは、ディープニューラルネットワーク(DNN)のトレーニングにユビキタスな2つの標準的なアーキテクチャコンポーネントを形成するが、正確な役割は理解されていない。
近年のDeep Kernel Shapingのようなアプローチは、広範NNカーネル理論からの洞察を用いて、バニラDNN(スキップや正規化のないネットワークと定義する)の信号伝搬を改善することで、それらへの依存を減らしている。
しかしながら、これらのアプローチは、カーネルが本質的に解析と制御が複雑であるトランスフォーマーに存在する自己アテンション層とは相容れない。
では、問題は残る: 深いバニラトランスフォーマーを訓練することは可能か?
本稿では, パラメータ初期化, バイアス行列, 位置依存再スケーリングの組み合わせを用いて, バニラ変圧器の忠実な信号伝達を実現する手法をいくつか設計して, この疑問に答える。
本手法はトランスにおける信号伝搬に特有の様々な複雑さに対処し,位置符号化や因果マスキングとの相互作用を含む。
WikiText-103 と C4 の実験では,標準値と一致する速度でのトレーニングを正規化せずに行うディープ・トランスフォーマーと,約5倍のイテレーションを経て,ディープ・バニラ・トランスフォーマーが標準値と同じ性能に達することができる。
関連論文リスト
- Transformers Provably Learn Sparse Token Selection While Fully-Connected Nets Cannot [50.16171384920963]
トランスフォーマーアーキテクチャは 様々なディープラーニング環境で普及しています
勾配降下で訓練された一層変圧器はスパーストークン選択タスクを確実に学習する。
論文 参考訳(メタデータ) (2024-06-11T02:15:53Z) - Simplifying Transformer Blocks [30.451976405521112]
この作業では、標準のトランスフォーマーブロックをどの程度単純化できるかを問う。
トレーニング速度を損なうことなく、多くのブロックコンポーネントを削除できる修正をモチベーションします。
自己回帰デコーダオンリーモデルとBERTエンコーダオンリーモデルの両方の実験では,更新時間当たりのトレーニング速度と性能を簡易化したトランスフォーマをエミュレートした。
論文 参考訳(メタデータ) (2023-11-03T13:30:52Z) - Characterization of anomalous diffusion through convolutional
transformers [0.8984888893275713]
本稿では, 異常拡散のキャラクタリゼーションのためのトランスフォーマーに基づくニューラルネットワークアーキテクチャを提案する。
新たなアーキテクチャであるConvTransformer(ConvTransformer)は、二層畳み込みニューラルネットワークを使用して、拡散軌道から特徴を抽出します。
我々は,ConvTransformerが,短い軌跡において,基礎となる拡散状態を決定する上で,従来の技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-10T18:53:13Z) - Error Correction Code Transformer [92.10654749898927]
本稿では,トランスフォーマーアーキテクチャを任意のブロック長で線形符号のソフトデコードに拡張することを提案する。
我々は,各チャネルの出力次元を高次元に符号化し,個別に処理すべきビット情報のより良い表現を行う。
提案手法は、トランスフォーマーの極端なパワーと柔軟性を示し、既存の最先端のニューラルデコーダを、その時間的複雑さのごく一部で大きなマージンで上回る。
論文 参考訳(メタデータ) (2022-03-27T15:25:58Z) - SepTr: Separable Transformer for Audio Spectrogram Processing [74.41172054754928]
分離可能トランス (Separable Transformer, SepTr) と呼ばれる新しい視覚変換器アーキテクチャを提案する。
SepTrは2つのトランスフォーマーブロックを逐次的に使用し、1つは同じ周波数ビン内のトークンに、もう1つは同じ時間間隔でトークンに出席する。
我々は3つのベンチマークデータセットで実験を行い、我々のアーキテクチャが従来のビジョントランスフォーマーや他の最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-03-17T19:48:43Z) - nnFormer: Interleaved Transformer for Volumetric Segmentation [50.10441845967601]
本稿では,自己意図と畳み込みを実証的に組み合わせた,インターリーブアーキテクチャを備えた強力なセグメンテーションモデルであるnnFormerを紹介する。
nnFormerは、SynapseとACDCの2つの一般的なデータセットで、以前のTransformerベースのメソッドよりも大幅に改善されている。
論文 参考訳(メタデータ) (2021-09-07T17:08:24Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - Effects of Parameter Norm Growth During Transformer Training: Inductive
Bias from Gradient Descent [44.44543743806831]
本研究では, トレーニング中にこれらの標準間に飽和しながら, 変圧器パラメータが大きくなる傾向について検討した。
パラメータが大きくなるにつれて、ネットワークは飽和活性化関数を持つ離散化されたネットワークに近似することが証明される。
以上の結果から,飽和はNLPに対する特定の関心のGDに暗黙的な誘導バイアスの新たな特徴であることが示唆された。
論文 参考訳(メタデータ) (2020-10-19T17:40:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。