論文の概要: On the Sub-Layer Functionalities of Transformer Decoder
- arxiv url: http://arxiv.org/abs/2010.02648v1
- Date: Tue, 6 Oct 2020 11:50:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 05:19:54.518924
- Title: On the Sub-Layer Functionalities of Transformer Decoder
- Title(参考訳): 変圧器デコーダのサブレイヤ機能について
- Authors: Yilin Yang, Longyue Wang, Shuming Shi, Prasad Tadepalli, Stefan Lee
and Zhaopeng Tu
- Abstract要約: トランスフォーマーをベースとしたデコーダは,ソースおよびターゲット言語からの情報をいかに活用するかを検討する。
これらの知見に基づき,各トランスフォーマーデコーダ層内の残フィードフォワードモジュールは,性能の低下を最小限に抑えられることを示した。
- 参考スコア(独自算出の注目度): 74.83087937309266
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There have been significant efforts to interpret the encoder of
Transformer-based encoder-decoder architectures for neural machine translation
(NMT); meanwhile, the decoder remains largely unexamined despite its critical
role. During translation, the decoder must predict output tokens by considering
both the source-language text from the encoder and the target-language prefix
produced in previous steps. In this work, we study how Transformer-based
decoders leverage information from the source and target languages --
developing a universal probe task to assess how information is propagated
through each module of each decoder layer. We perform extensive experiments on
three major translation datasets (WMT En-De, En-Fr, and En-Zh). Our analysis
provides insight on when and where decoders leverage different sources. Based
on these insights, we demonstrate that the residual feed-forward module in each
Transformer decoder layer can be dropped with minimal loss of performance -- a
significant reduction in computation and number of parameters, and consequently
a significant boost to both training and inference speed.
- Abstract(参考訳): トランスフォーマーをベースとしたニューラルマシン翻訳(NMT)のためのエンコーダ-デコーダアーキテクチャの解釈には大きな取り組みがあったが、デコーダはその重要な役割にもかかわらず、ほとんど検討されていない。
翻訳中、デコーダは、エンコーダからのソース言語テキストと、以前のステップで生成されたターゲット言語プレフィックスの両方を考慮し、出力トークンを予測する必要がある。
本研究では,トランスフォーマーをベースとしたデコーダが,ソースおよびターゲット言語からの情報をどのように活用するかを検討する。
3つの主要な翻訳データセット(WMT En-De, En-Fr, En-Zh)について広範な実験を行った。
我々の分析は、デコーダが異なるソースをいつ、どこで利用するかについての洞察を提供する。
これらの知見に基づき、各トランスフォーワードデコーダ層における残差フィードフォワードモジュールは、性能の低下を最小限に抑えることで、計算量とパラメータ数を大幅に削減することができ、その結果、トレーニングと推論の速度が大幅に向上することを示す。
関連論文リスト
- DecoderLens: Layerwise Interpretation of Encoder-Decoder Transformers [6.405360669408265]
本稿では,エンコーダ・デコーダ変換器を簡易に解析する手法を提案する。
LogitLens(デコーダのみのトランスフォーマー)にインスパイアされたこの手法では、デコーダが中間エンコーダ層を横断的に表現できるようにする。
質問応答,論理的推論,音声認識,機械翻訳を訓練したモデルに適用したDecoderLensの結果を報告する。
論文 参考訳(メタデータ) (2023-10-05T17:04:59Z) - Investigating Pre-trained Audio Encoders in the Low-Resource Condition [66.92823764664206]
低リソース環境下で3つの最先端エンコーダ(Wav2vec2,WavLM,Whisper)を用いて総合的な実験を行う。
本稿では,タスク性能,収束速度,エンコーダの表現特性に関する定量的,定性的な分析を行った。
論文 参考訳(メタデータ) (2023-05-28T14:15:19Z) - Decoder-Only or Encoder-Decoder? Interpreting Language Model as a
Regularized Encoder-Decoder [75.03283861464365]
seq2seqタスクは、与えられた入力ソースシーケンスに基づいてターゲットシーケンスを生成することを目的としている。
伝統的に、seq2seqタスクのほとんどはエンコーダによって解決され、ソースシーケンスとデコーダをエンコードしてターゲットテキストを生成する。
最近、デコーダのみの言語モデルをseq2seqタスクに直接適用する、多くの新しいアプローチが出現しました。
論文 参考訳(メタデータ) (2023-04-08T15:44:29Z) - Transformer Meets DCFAM: A Novel Semantic Segmentation Scheme for
Fine-Resolution Remote Sensing Images [6.171417925832851]
Swin Transformerをバックボーンとして導入し、コンテキスト情報を完全に抽出します。
また、高密度接続特徴集合モジュール(DCFAM)と呼ばれる新しいデコーダを設計し、解像度を復元し、セグメンテーションマップを生成する。
論文 参考訳(メタデータ) (2021-04-25T11:34:22Z) - Rethinking and Improving Natural Language Generation with Layer-Wise
Multi-View Decoding [59.48857453699463]
シーケンシャル・ツー・シーケンス学習では、デコーダは注意機構に依存してエンコーダから情報を効率的に抽出する。
近年の研究では、異なるエンコーダ層からの表現を多様なレベルの情報に利用することが提案されている。
本稿では, 各デコーダ層に対して, グローバルビューとして機能する最後のエンコーダ層からの表現とともに, ソースシーケンスの立体視のために他のエンコーダ層からのデコーダ層からのデコーダ層を補足するレイヤワイド・マルチビューデコーダを提案する。
論文 参考訳(メタデータ) (2020-05-16T20:00:39Z) - On Sparsifying Encoder Outputs in Sequence-to-Sequence Models [90.58793284654692]
我々はTransformerをテストベッドとして、エンコーダとデコーダの間にあるゲートの層を導入します。
ゲートは、パリシティ誘導L0ペナルティの期待値を用いて正規化される。
このスペーサー化が2つの機械翻訳と2つの要約タスクに与える影響について検討する。
論文 参考訳(メタデータ) (2020-04-24T16:57:52Z) - Balancing Cost and Benefit with Tied-Multi Transformers [24.70761584719857]
シーケンス・ツー・シーケンス・モデリングでは、N層エンコーダの最後の層の出力をM層デコーダに供給し、最後のデコーダ層の出力を用いて損失を算出する。
提案手法はNxM損失からなる単一損失を計算し,各損失をNエンコーダ層に接続されたMデコーダ層の出力から算出する。
このようなモデルは、エンコーダ層とデコーダ層の数が異なるNxMモデルを仮定し、エンコーダ層とデコーダ層の最大数より少ないデコードに使用できる。
論文 参考訳(メタデータ) (2020-02-20T08:20:52Z) - Bi-Decoder Augmented Network for Neural Machine Translation [108.3931242633331]
本稿では,ニューラルマシン翻訳タスクのためのBi-Decoder Augmented Network (BiDAN)を提案する。
各デコーダは入力されたテキストの表現を対応する言語に変換するため、2つの目的語と共同でトレーニングすることで、共有エンコーダは言語に依存しない意味空間を生成することができる。
論文 参考訳(メタデータ) (2020-01-14T02:05:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。