論文の概要: ResiDual: Transformer with Dual Residual Connections
- arxiv url: http://arxiv.org/abs/2304.14802v1
- Date: Fri, 28 Apr 2023 12:19:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-01 14:19:34.836410
- Title: ResiDual: Transformer with Dual Residual Connections
- Title(参考訳): ResiDual: デュアル残差接続型トランス
- Authors: Shufang Xie, Huishuai Zhang, Junliang Guo, Xu Tan, Jiang Bian, Hany
Hassan Awadalla, Arul Menezes, Tao Qin, Rui Yan
- Abstract要約: 広く使われている2つの変種は、Post-Layer-Normalization (Post-LN)とPre-Layer-Normalization (Pre-LN)である。
Post-LNは、深層トランスフォーマーのトレーニングを妨げる勾配消滅問題を引き起こし、Pre-LNはモデルキャパシティを制限する表現崩壊問題を引き起こす。
本稿では,PPLN(Pre-Post-LN)を用いた新しいトランスフォーマーアーキテクチャResiDualを提案する。
- 参考スコア(独自算出の注目度): 106.38073506751003
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer networks have become the preferred architecture for many tasks
due to their state-of-the-art performance. However, the optimal way to
implement residual connections in Transformer, which are essential for
effective training, is still debated. Two widely used variants are the
Post-Layer-Normalization (Post-LN) and Pre-Layer-Normalization (Pre-LN)
Transformers, which apply layer normalization after each residual block's
output or before each residual block's input, respectively. While both variants
enjoy their advantages, they also suffer from severe limitations: Post-LN
causes gradient vanishing issue that hinders training deep Transformers, and
Pre-LN causes representation collapse issue that limits model capacity. In this
paper, we propose ResiDual, a novel Transformer architecture with Pre-Post-LN
(PPLN), which fuses the connections in Post-LN and Pre-LN together and inherits
their advantages while avoids their limitations. We conduct both theoretical
analyses and empirical experiments to verify the effectiveness of ResiDual.
Theoretically, we prove that ResiDual has a lower bound on the gradient to
avoid the vanishing issue due to the residual connection from Pre-LN. Moreover,
ResiDual also has diverse model representations to avoid the collapse issue due
to the residual connection from Post-LN. Empirically, ResiDual outperforms both
Post-LN and Pre-LN on several machine translation benchmarks across different
network depths and data sizes. Thanks to the good theoretical and empirical
performance, ResiDual Transformer can serve as a foundation architecture for
different AI models (e.g., large language models). Our code is available at
https://github.com/microsoft/ResiDual.
- Abstract(参考訳): トランスフォーマーネットワークは最先端の性能のために多くのタスクで好まれるアーキテクチャになっている。
しかし、効果的なトレーニングに不可欠なTransformerの残差接続を実装するための最適な方法はいまだ議論されている。
広く使われている2つの変種はポスト層正規化(post-ln)とプレ層正規化(pre-ln)トランスであり、各残差ブロックの出力後または各残差ブロックの入力前にそれぞれ層正規化を適用する。
Post-LNは、深層トランスフォーマーのトレーニングを妨げる勾配の消滅問題を引き起こし、Pre-LNはモデルキャパシティを制限する表現崩壊問題を引き起こす。
本稿では,Post-LNとPre-LNの接続を融合したPPLNを用いた新しいトランスフォーマーアーキテクチャResiDualを提案する。
理論解析と実験実験の両方を行い,残差の有効性を検証する。
理論的には、ResiDual は、Pre-LN からの残差接続により消滅する問題を避けるために勾配が低いことを証明している。
さらにResiDualは、Post-LNからの残差接続による崩壊問題を回避するために、多様なモデル表現も備えている。
ResiDualは、異なるネットワーク深さとデータサイズにわたるいくつかの機械翻訳ベンチマークにおいて、Post-LNとPre-LNの両方のパフォーマンスを実証的に上回る。
ResiDual Transformerは、理論的および経験的なパフォーマンスにより、さまざまなAIモデル(例えば、大規模言語モデル)の基盤アーキテクチャとして機能する。
私たちのコードはhttps://github.com/microsoft/residual.comで利用可能です。
関連論文リスト
- Peri-LN: Revisiting Layer Normalization in the Transformer Architecture [57.08322913112157]
Pre-LNとPost-LNは、大規模なトレーニングの制限にもかかわらず、長い間標準のプラクティスを支配してきた。
いくつかのオープンソースの大規模モデルは、最近、多くの説明なしに第3の戦略を静かに採用し始めた。
Peri-LNは、よりバランスの取れた分散成長、より安定な勾配流、収束安定性を実現する。
論文 参考訳(メタデータ) (2025-02-04T21:29:47Z) - Were RNNs All We Needed? [55.822693848969855]
本研究では、リカレントニューラルネットワーク(RNN)に着目し、歴史的観点からのシーケンスモデリングを再考する。
これらのモデルを簡単にすることで、従来のモデルよりも少ないパラメータを使用する最小バージョン(minLSTMとminGRU)を導出でき、トレーニング中に完全に並列化可能であり、トランスフォーマーを含む最近のモデルに対抗して、様々なタスクにおいて驚くほど競争力のあるパフォーマンスを達成することができることを実証した。
論文 参考訳(メタデータ) (2024-10-02T03:06:49Z) - Practical Computational Power of Linear Transformers and Their Recurrent
and Self-Referential Extensions [15.793406740545024]
線形変換器(LT)やFWP(Fast Weight Programmers)を線形化した自動回帰変換器について検討する。
LTは固定サイズのRNNライクなシーケンスプロセッサと等価であるという意味で特有であり、今や人気になっている自己アテンションネットワークとしても表現できる。
論文 参考訳(メタデータ) (2023-10-24T17:17:01Z) - Re^2TAL: Rewiring Pretrained Video Backbones for Reversible Temporal
Action Localization [65.33914980022303]
時間的行動ローカライゼーション(TAL)は、様々な期間と複雑な内容の行動を予測するために、長期的推論を必要とする。
ほとんどのメソッドは、ローカライズ問題に最適化することなく、事前抽出された機能のみをトレーニングできる。
本稿では,既存のビデオバックボーンを可逆性talにリワイヤリングする,新しいエンドツーエンド手法Re2TALを提案する。
論文 参考訳(メタデータ) (2022-11-25T12:17:30Z) - Characterization of anomalous diffusion through convolutional
transformers [0.8984888893275713]
本稿では, 異常拡散のキャラクタリゼーションのためのトランスフォーマーに基づくニューラルネットワークアーキテクチャを提案する。
新たなアーキテクチャであるConvTransformer(ConvTransformer)は、二層畳み込みニューラルネットワークを使用して、拡散軌道から特徴を抽出します。
我々は,ConvTransformerが,短い軌跡において,基礎となる拡散状態を決定する上で,従来の技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-10T18:53:13Z) - Unified Normalization for Accelerating and Stabilizing Transformers [35.07454490355906]
層正規化(LN)は各トークン内のアクティベーションを正規化し、ロバスト性を高める。
LNは推論におけるオンザフライ統計計算と除算および平方根演算を必要とする。
我々は、他の線形演算と融合して推論を高速化するUnified Normalization (UN)を提案する。
論文 参考訳(メタデータ) (2022-08-02T08:41:31Z) - B2T Connection: Serving Stability and Performance in Deep Transformers [40.44674210101826]
最近のトランスフォーマーは、ディープトランスフォーマーを備えたPost-LNでは、トレーニングが不安定で、役に立たないモデルになるため、Pre-LNになる傾向にある。
Post-LNは比較的浅いトランスフォーマーにおいて、Pre-LNよりも一貫して優れたパフォーマンスを実現している。
本稿では,Post-LNの簡易な修正により,高い安定性と効果的なトレーニングを両立できる手法を提案する。
論文 参考訳(メタデータ) (2022-06-01T08:43:20Z) - Learning Bounded Context-Free-Grammar via LSTM and the
Transformer:Difference and Explanations [51.77000472945441]
Long Short-Term Memory (LSTM) と Transformer は、自然言語処理タスクに使用される2つの一般的なニューラルネットワークアーキテクチャである。
実際には、トランスフォーマーモデルの方がLSTMよりも表現力が高いことがよく見られる。
本研究では,LSTMとTransformerの実践的差異について検討し,その潜在空間分解パターンに基づく説明を提案する。
論文 参考訳(メタデータ) (2021-12-16T19:56:44Z) - ENCONTER: Entity Constrained Progressive Sequence Generation via
Insertion-based Transformer [11.310502327308575]
自己回帰型言語モデルは、厳しい語彙制約下ではうまく機能しない。
プログレッシブ挿入ベースのトランスフォーマーはこの制限を克服することができる。
Entity-constrained insertion transformer (ENCONTER) を提案する。
実験の結果,ENCONTERは他のベースラインモデルよりも性能が優れていることがわかった。
論文 参考訳(メタデータ) (2021-03-17T10:24:10Z) - Neural Networks are Convex Regularizers: Exact Polynomial-time Convex
Optimization Formulations for Two-layer Networks [70.15611146583068]
我々は、線形整列ユニット(ReLU)を用いた2層ニューラルネットワークのトレーニングの正確な表現を開発する。
我々の理論は半無限双対性と最小ノルム正規化を利用する。
論文 参考訳(メタデータ) (2020-02-24T21:32:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。