論文の概要: Transformer with Depth-Wise LSTM
- arxiv url: http://arxiv.org/abs/2007.06257v1
- Date: Mon, 13 Jul 2020 09:19:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 00:00:33.701927
- Title: Transformer with Depth-Wise LSTM
- Title(参考訳): 奥行きLSTMを用いた変圧器
- Authors: Hongfei Xu and Qiuhui Liu and Deyi Xiong and Josef van Genabith
- Abstract要約: Transformer翻訳モデルは、その収束を保証するために残差接続を使用する。
本稿では,階層の出力を時系列のステップとみなす深度ワイドLSTMを用いてトランスフォーマーを訓練することを提案する。
6層トランスを用いた実験により,WMT 14の英語-ドイツ語と英語-フランス語の両タスクにおいて,BLEUの大幅な改善がもたらされることが示された。
- 参考スコア(独自算出の注目度): 69.40942736249397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Increasing the depth of models allows neural models to model complicated
functions but may also lead to optimization issues. The Transformer translation
model employs the residual connection to ensure its convergence. In this paper,
we suggest that the residual connection has its drawbacks, and propose to train
Transformers with the depth-wise LSTM which regards outputs of layers as steps
in time series instead of residual connections, under the motivation that the
vanishing gradient problem suffered by deep networks is the same as recurrent
networks applied to long sequences, while LSTM (Hochreiter and Schmidhuber,
1997) has been proven of good capability in capturing long-distance
relationship, and its design may alleviate some drawbacks of residual
connections while ensuring the convergence. We integrate the computation of
multi-head attention networks and feed-forward networks with the depth-wise
LSTM for the Transformer, which shows how to utilize the depth-wise LSTM like
the residual connection. Our experiment with the 6-layer Transformer shows that
our approach can bring about significant BLEU improvements in both WMT 14
English-German and English-French tasks, and our deep Transformer experiment
demonstrates the effectiveness of the depth-wise LSTM on the convergence of
deep Transformers. Additionally, we propose to measure the impacts of the
layer's non-linearity on the performance by distilling the analyzing layer of
the trained model into a linear transformation and observing the performance
degradation with the replacement. Our analysis results support the more
efficient use of per-layer non-linearity with depth-wise LSTM than with
residual connections.
- Abstract(参考訳): モデルの深さを増やすことで、ニューラルネットワークは複雑な関数をモデル化できるが、最適化の問題につながることもある。
トランス変換モデルは、その収束を保証するために残差接続を用いる。
In this paper, we suggest that the residual connection has its drawbacks, and propose to train Transformers with the depth-wise LSTM which regards outputs of layers as steps in time series instead of residual connections, under the motivation that the vanishing gradient problem suffered by deep networks is the same as recurrent networks applied to long sequences, while LSTM (Hochreiter and Schmidhuber, 1997) has been proven of good capability in capturing long-distance relationship, and its design may alleviate some drawbacks of residual connections while ensuring the convergence.
マルチヘッドアテンションネットワークとフィードフォワードネットワークの計算をトランスフォーマーの深度ワイドLSTMと統合し、残差接続のように深度ワイドLSTMを利用する方法を示す。
6層トランスを用いた実験により,WMT14とWMT14の両タスクにおいてBLEUの大幅な改善がもたらされることを示すとともに,深層トランスフォーマーの収束に対する深部的LSTMの有効性を実証した。
さらに, 学習モデルの解析層を線形変換に蒸留し, 代替による性能劣化を観察することで, 性能に対する非線型性の影響を測定することを提案する。
解析結果は, 層間非直線性, 深度的LSTM, 残差接続性よりも効率的である。
関連論文リスト
- Efficient Visual Transformer by Learnable Token Merging [8.905020033545643]
本稿では,Learable Token Merging (LTM) または LTM-Transformer を用いた新しい変圧器ブロックを提案する。
LTM-Transformerは、多くの人気かつコンパクトなトランスフォーマーネットワークと互換性がある。
コンパクトで効率的な視覚変換器をレンダリングし、元の視覚変換器と同等またははるかに優れた予測精度でレンダリングする。
論文 参考訳(メタデータ) (2024-07-21T17:09:19Z) - CT-MVSNet: Efficient Multi-View Stereo with Cross-scale Transformer [8.962657021133925]
クロススケールトランス(CT)プロセスは、追加計算なしで異なる段階の表現を特徴付ける。
複数のスケールで異なる対話型アテンションの組み合わせを利用する適応型マッチング認識変換器(AMT)を導入する。
また、より細かなコストボリューム構成に大まかにグローバルな意味情報を埋め込む2機能ガイドアグリゲーション(DFGA)も提案する。
論文 参考訳(メタデータ) (2023-12-14T01:33:18Z) - A Neural ODE Interpretation of Transformer Layers [8.839601328192957]
マルチヘッドアテンションとマルチレイヤパーセプトロン(MLP)レイヤの交互パターンを使用するトランスフォーマーレイヤは、さまざまな機械学習問題に対して効果的なツールを提供する。
我々は、この接続を構築し、トランス層の内部構造を変更することを提案する。
実験により, この簡単な修正により, 複数のタスクにおけるトランスフォーマーネットワークの性能が向上することが示された。
論文 参考訳(メタデータ) (2022-12-12T16:18:58Z) - GTrans: Grouping and Fusing Transformer Layers for Neural Machine
Translation [107.2752114891855]
トランスフォーマー構造は、エンコーダとデコーダのネットワーク層によって積み重ねられ、ニューラルマシン翻訳において大きな発展を遂げる。
本稿では,エンコーダとデコーダの多層表現を異なるグループに柔軟に分割し,これらの特徴を融合して目的語を生成するグループトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2022-07-29T04:10:36Z) - Towards Lightweight Transformer via Group-wise Transformation for
Vision-and-Language Tasks [126.33843752332139]
本稿では,LW-Transformerと呼ばれる視覚・言語タスクのための,普遍的で軽量なトランスフォーマーに対するグループワイズ変換を提案する。
LW-Transformerを一組のTransformerベースのネットワークに適用し、3つの視覚・言語タスクと6つのベンチマークデータセットで定量的に測定する。
実験の結果,LW-Transformerは多数のパラメータや計算を節約しながら,視覚・言語タスクのためのトランスフォーマーネットワークと非常に競合する性能を発揮することがわかった。
論文 参考訳(メタデータ) (2022-04-16T11:30:26Z) - Scalable Transformers for Neural Machine Translation [86.4530299266897]
トランスフォーマーは、そのキャパシティとシーケンス生成の並列トレーニングのため、ニューラルネットワーク翻訳(NMT)で広く採用されている。
本稿では,異なるスケールのサブトランスフォーマーを自然に含み,パラメータを共有できる,スケーラブルなトランスフォーマーを提案する。
スケーラブルトランスフォーマーのトレーニングの難しさに対処する3段階のトレーニングスキームが提案されている。
論文 参考訳(メタデータ) (2021-06-04T04:04:10Z) - Multi-Pass Transformer for Machine Translation [51.867982400693194]
我々は、後続のレイヤの出力に照らして、以前のレイヤが情報を処理できるマルチパストランスフォーマー(MPT)アーキテクチャについて検討する。
MPTは、挑戦的な機械翻訳En-DeとEn-Frデータセット上でのLarge Transformerのパフォーマンスを上回ることができる。
ハード接続の場合、En-Deの最適接続パターンはEn-Frの性能も向上する。
論文 参考訳(メタデータ) (2020-09-23T21:22:15Z) - Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。
十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-20T17:25:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。