論文の概要: Transformer with Depth-Wise LSTM
- arxiv url: http://arxiv.org/abs/2007.06257v1
- Date: Mon, 13 Jul 2020 09:19:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 00:00:33.701927
- Title: Transformer with Depth-Wise LSTM
- Title(参考訳): 奥行きLSTMを用いた変圧器
- Authors: Hongfei Xu and Qiuhui Liu and Deyi Xiong and Josef van Genabith
- Abstract要約: Transformer翻訳モデルは、その収束を保証するために残差接続を使用する。
本稿では,階層の出力を時系列のステップとみなす深度ワイドLSTMを用いてトランスフォーマーを訓練することを提案する。
6層トランスを用いた実験により,WMT 14の英語-ドイツ語と英語-フランス語の両タスクにおいて,BLEUの大幅な改善がもたらされることが示された。
- 参考スコア(独自算出の注目度): 69.40942736249397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Increasing the depth of models allows neural models to model complicated
functions but may also lead to optimization issues. The Transformer translation
model employs the residual connection to ensure its convergence. In this paper,
we suggest that the residual connection has its drawbacks, and propose to train
Transformers with the depth-wise LSTM which regards outputs of layers as steps
in time series instead of residual connections, under the motivation that the
vanishing gradient problem suffered by deep networks is the same as recurrent
networks applied to long sequences, while LSTM (Hochreiter and Schmidhuber,
1997) has been proven of good capability in capturing long-distance
relationship, and its design may alleviate some drawbacks of residual
connections while ensuring the convergence. We integrate the computation of
multi-head attention networks and feed-forward networks with the depth-wise
LSTM for the Transformer, which shows how to utilize the depth-wise LSTM like
the residual connection. Our experiment with the 6-layer Transformer shows that
our approach can bring about significant BLEU improvements in both WMT 14
English-German and English-French tasks, and our deep Transformer experiment
demonstrates the effectiveness of the depth-wise LSTM on the convergence of
deep Transformers. Additionally, we propose to measure the impacts of the
layer's non-linearity on the performance by distilling the analyzing layer of
the trained model into a linear transformation and observing the performance
degradation with the replacement. Our analysis results support the more
efficient use of per-layer non-linearity with depth-wise LSTM than with
residual connections.
- Abstract(参考訳): モデルの深さを増やすことで、ニューラルネットワークは複雑な関数をモデル化できるが、最適化の問題につながることもある。
トランス変換モデルは、その収束を保証するために残差接続を用いる。
In this paper, we suggest that the residual connection has its drawbacks, and propose to train Transformers with the depth-wise LSTM which regards outputs of layers as steps in time series instead of residual connections, under the motivation that the vanishing gradient problem suffered by deep networks is the same as recurrent networks applied to long sequences, while LSTM (Hochreiter and Schmidhuber, 1997) has been proven of good capability in capturing long-distance relationship, and its design may alleviate some drawbacks of residual connections while ensuring the convergence.
マルチヘッドアテンションネットワークとフィードフォワードネットワークの計算をトランスフォーマーの深度ワイドLSTMと統合し、残差接続のように深度ワイドLSTMを利用する方法を示す。
6層トランスを用いた実験により,WMT14とWMT14の両タスクにおいてBLEUの大幅な改善がもたらされることを示すとともに,深層トランスフォーマーの収束に対する深部的LSTMの有効性を実証した。
さらに, 学習モデルの解析層を線形変換に蒸留し, 代替による性能劣化を観察することで, 性能に対する非線型性の影響を測定することを提案する。
解析結果は, 層間非直線性, 深度的LSTM, 残差接続性よりも効率的である。
関連論文リスト
- CT-MVSNet: Efficient Multi-View Stereo with Cross-scale Transformer [8.962657021133925]
クロススケールトランス(CT)プロセスは、追加計算なしで異なる段階の表現を特徴付ける。
複数のスケールで異なる対話型アテンションの組み合わせを利用する適応型マッチング認識変換器(AMT)を導入する。
また、より細かなコストボリューム構成に大まかにグローバルな意味情報を埋め込む2機能ガイドアグリゲーション(DFGA)も提案する。
論文 参考訳(メタデータ) (2023-12-14T01:33:18Z) - A Neural ODE Interpretation of Transformer Layers [8.839601328192957]
マルチヘッドアテンションとマルチレイヤパーセプトロン(MLP)レイヤの交互パターンを使用するトランスフォーマーレイヤは、さまざまな機械学習問題に対して効果的なツールを提供する。
我々は、この接続を構築し、トランス層の内部構造を変更することを提案する。
実験により, この簡単な修正により, 複数のタスクにおけるトランスフォーマーネットワークの性能が向上することが示された。
論文 参考訳(メタデータ) (2022-12-12T16:18:58Z) - Towards Energy-Efficient, Low-Latency and Accurate Spiking LSTMs [1.7969777786551424]
Spiking Neural Networks(SNN)は、複雑なタスクのための魅力的なテンポラルコンピューティングパラダイムビジョンとして登場した。
そこで本研究では,新規な長期記憶ネットワーク(LSTM)の学習フレームワークを提案する。
rev-to-SNN変換フレームワーク、続いてSNNトレーニング。
我々は、時間的M、Google Speech Commands(GSC)データセット、異なるLSTMアーキテクチャ上のUCIスマートフォンなど、逐次学習タスクに関するフレームワークを評価した。
論文 参考訳(メタデータ) (2022-10-23T04:10:27Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z) - Image Superresolution using Scale-Recurrent Dense Network [30.75380029218373]
畳み込みニューラルネットワーク(CNN)の設計の最近の進歩は、画像超解像(SR)の性能を大幅に向上させた。
残差ブロック内の一連の密接な接続を含む単位上に構築されたスケールリカレントSRアーキテクチャを提案する(Residual Dense Blocks (RDBs))。
我々のスケールリカレント設計は、現在の最先端のアプローチに比べてパラメトリックに効率的でありながら、より高いスケール要因の競合性能を提供する。
論文 参考訳(メタデータ) (2022-01-28T09:18:43Z) - Learning Bounded Context-Free-Grammar via LSTM and the
Transformer:Difference and Explanations [51.77000472945441]
Long Short-Term Memory (LSTM) と Transformer は、自然言語処理タスクに使用される2つの一般的なニューラルネットワークアーキテクチャである。
実際には、トランスフォーマーモデルの方がLSTMよりも表現力が高いことがよく見られる。
本研究では,LSTMとTransformerの実践的差異について検討し,その潜在空間分解パターンに基づく説明を提案する。
論文 参考訳(メタデータ) (2021-12-16T19:56:44Z) - Rethinking Skip Connection with Layer Normalization in Transformers and
ResNets [49.87919454950763]
スキップ接続は、ディープニューラルネットワークの性能を改善するために広く使われているテクニックである。
本研究では,スキップ接続の有効性におけるスケール要因について検討する。
論文 参考訳(メタデータ) (2021-05-15T11:44:49Z) - Object Tracking through Residual and Dense LSTMs [67.98948222599849]
LSTM(Long Short-Term Memory)リカレントニューラルネットワークに基づくディープラーニングベースのトラッカーが、強力な代替手段として登場した。
DenseLSTMはResidualおよびRegular LSTMより優れ、ニュアンセに対する高いレジリエンスを提供する。
ケーススタディは、他のトラッカーの堅牢性を高めるために残差ベースRNNの採用を支援する。
論文 参考訳(メタデータ) (2020-06-22T08:20:17Z) - Toward fast and accurate human pose estimation via soft-gated skip
connections [97.06882200076096]
本稿では,高精度かつ高効率な人間のポーズ推定について述べる。
我々は、最先端技術よりも精度と効率を両立させる文脈において、この設計選択を再分析する。
本モデルでは,MPII と LSP のデータセットから最先端の結果が得られる。
論文 参考訳(メタデータ) (2020-02-25T18:51:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。