論文の概要: Rewiring the Transformer with Depth-Wise LSTMs
- arxiv url: http://arxiv.org/abs/2007.06257v2
- Date: Thu, 4 Apr 2024 07:17:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-05 21:09:13.115886
- Title: Rewiring the Transformer with Depth-Wise LSTMs
- Title(参考訳): 奥行きLSTMを用いた変圧器のリライト
- Authors: Hongfei Xu, Yang Song, Qiuhui Liu, Josef van Genabith, Deyi Xiong,
- Abstract要約: カスケードトランスとサブ層を接続する奥行きLSTMを用いたトランスフォーマーを提案する。
6層トランスを用いた実験では、WMT 14英語/ドイツ語/フランス語タスクとOPUS-100多言語NMTタスクの両方でBLEUが大幅に改善された。
- 参考スコア(独自算出の注目度): 55.50278212605607
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stacking non-linear layers allows deep neural networks to model complicated functions, and including residual connections in Transformer layers is beneficial for convergence and performance. However, residual connections may make the model "forget" distant layers and fail to fuse information from previous layers effectively. Selectively managing the representation aggregation of Transformer layers may lead to better performance. In this paper, we present a Transformer with depth-wise LSTMs connecting cascading Transformer layers and sub-layers. We show that layer normalization and feed-forward computation within a Transformer layer can be absorbed into depth-wise LSTMs connecting pure Transformer attention layers. Our experiments with the 6-layer Transformer show significant BLEU improvements in both WMT 14 English-German / French tasks and the OPUS-100 many-to-many multilingual NMT task, and our deep Transformer experiments demonstrate the effectiveness of depth-wise LSTM on the convergence and performance of deep Transformers.
- Abstract(参考訳): 非線形レイヤを積み重ねることで、ディープニューラルネットワークが複雑な関数をモデル化し、Transformerレイヤの残余接続を含めることは、収束とパフォーマンスに有益である。
しかし、余分な接続により、モデルが遠方のレイヤを「忘れる」ことができ、前のレイヤからの情報を効果的に融合することができない可能性がある。
Transformerレイヤの表現アグリゲーションを選択的に管理することで、パフォーマンスが向上する可能性がある。
本稿では,カスケードトランス層とサブ層を接続する奥行きLSTMを用いた変圧器を提案する。
本研究では,トランスフォーマー層内の層正規化とフィードフォワード計算を,純粋なトランスフォーマーアテンション層を接続する深度ワイドLSTMに吸収可能であることを示す。
6層トランスを用いた実験では,WMT 14英語-ドイツ語/フランス語タスクとOPUS-100多言語NMTタスクの両方においてBLEUの大幅な改善が見られ,深層トランスフォーマーの収束と性能に対する深部LSTMの有効性が実証された。
関連論文リスト
- Efficient Visual Transformer by Learnable Token Merging [8.905020033545643]
本稿では,Learable Token Merging (LTM) または LTM-Transformer を用いた新しい変圧器ブロックを提案する。
LTM-Transformerは、多くの人気かつコンパクトなトランスフォーマーネットワークと互換性がある。
コンパクトで効率的な視覚変換器をレンダリングし、元の視覚変換器と同等またははるかに優れた予測精度でレンダリングする。
論文 参考訳(メタデータ) (2024-07-21T17:09:19Z) - CT-MVSNet: Efficient Multi-View Stereo with Cross-scale Transformer [8.962657021133925]
クロススケールトランス(CT)プロセスは、追加計算なしで異なる段階の表現を特徴付ける。
複数のスケールで異なる対話型アテンションの組み合わせを利用する適応型マッチング認識変換器(AMT)を導入する。
また、より細かなコストボリューム構成に大まかにグローバルな意味情報を埋め込む2機能ガイドアグリゲーション(DFGA)も提案する。
論文 参考訳(メタデータ) (2023-12-14T01:33:18Z) - A Neural ODE Interpretation of Transformer Layers [8.839601328192957]
マルチヘッドアテンションとマルチレイヤパーセプトロン(MLP)レイヤの交互パターンを使用するトランスフォーマーレイヤは、さまざまな機械学習問題に対して効果的なツールを提供する。
我々は、この接続を構築し、トランス層の内部構造を変更することを提案する。
実験により, この簡単な修正により, 複数のタスクにおけるトランスフォーマーネットワークの性能が向上することが示された。
論文 参考訳(メタデータ) (2022-12-12T16:18:58Z) - GTrans: Grouping and Fusing Transformer Layers for Neural Machine
Translation [107.2752114891855]
トランスフォーマー構造は、エンコーダとデコーダのネットワーク層によって積み重ねられ、ニューラルマシン翻訳において大きな発展を遂げる。
本稿では,エンコーダとデコーダの多層表現を異なるグループに柔軟に分割し,これらの特徴を融合して目的語を生成するグループトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2022-07-29T04:10:36Z) - Towards Lightweight Transformer via Group-wise Transformation for
Vision-and-Language Tasks [126.33843752332139]
本稿では,LW-Transformerと呼ばれる視覚・言語タスクのための,普遍的で軽量なトランスフォーマーに対するグループワイズ変換を提案する。
LW-Transformerを一組のTransformerベースのネットワークに適用し、3つの視覚・言語タスクと6つのベンチマークデータセットで定量的に測定する。
実験の結果,LW-Transformerは多数のパラメータや計算を節約しながら,視覚・言語タスクのためのトランスフォーマーネットワークと非常に競合する性能を発揮することがわかった。
論文 参考訳(メタデータ) (2022-04-16T11:30:26Z) - Scalable Transformers for Neural Machine Translation [86.4530299266897]
トランスフォーマーは、そのキャパシティとシーケンス生成の並列トレーニングのため、ニューラルネットワーク翻訳(NMT)で広く採用されている。
本稿では,異なるスケールのサブトランスフォーマーを自然に含み,パラメータを共有できる,スケーラブルなトランスフォーマーを提案する。
スケーラブルトランスフォーマーのトレーニングの難しさに対処する3段階のトレーニングスキームが提案されている。
論文 参考訳(メタデータ) (2021-06-04T04:04:10Z) - Multi-Pass Transformer for Machine Translation [51.867982400693194]
我々は、後続のレイヤの出力に照らして、以前のレイヤが情報を処理できるマルチパストランスフォーマー(MPT)アーキテクチャについて検討する。
MPTは、挑戦的な機械翻訳En-DeとEn-Frデータセット上でのLarge Transformerのパフォーマンスを上回ることができる。
ハード接続の場合、En-Deの最適接続パターンはEn-Frの性能も向上する。
論文 参考訳(メタデータ) (2020-09-23T21:22:15Z) - Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。
十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-20T17:25:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。