論文の概要: Probing Word Translations in the Transformer and Trading Decoder for
Encoder Layers
- arxiv url: http://arxiv.org/abs/2003.09586v2
- Date: Tue, 20 Apr 2021 00:31:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 12:58:31.218708
- Title: Probing Word Translations in the Transformer and Trading Decoder for
Encoder Layers
- Title(参考訳): エンコーダ層におけるトランスフォーマとトレーディングデコーダにおける単語翻訳の探索
- Authors: Hongfei Xu and Josef van Genabith and Qiuhui Liu and Deyi Xiong
- Abstract要約: トランスフォーマー層における単語の翻訳方法はまだ研究されていない。
翻訳はすでにエンコーダ層や入力埋め込みでも徐々に行われています。
実験の結果,翻訳品質が低い2.3までの速度向上が可能であり,さらに18-4のディープエンコーダ構成では翻訳品質が1.42BLEU(En-De)の速度アップで+1.42BLEU(En-De)向上することがわかった。
- 参考スコア(独自算出の注目度): 69.40942736249397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to its effectiveness and performance, the Transformer translation model
has attracted wide attention, most recently in terms of probing-based
approaches. Previous work focuses on using or probing source linguistic
features in the encoder. To date, the way word translation evolves in
Transformer layers has not yet been investigated. Naively, one might assume
that encoder layers capture source information while decoder layers translate.
In this work, we show that this is not quite the case: translation already
happens progressively in encoder layers and even in the input embeddings. More
surprisingly, we find that some of the lower decoder layers do not actually do
that much decoding. We show all of this in terms of a probing approach where we
project representations of the layer analyzed to the final trained and frozen
classifier level of the Transformer decoder to measure word translation
accuracy. Our findings motivate and explain a Transformer configuration change:
if translation already happens in the encoder layers, perhaps we can increase
the number of encoder layers, while decreasing the number of decoder layers,
boosting decoding speed, without loss in translation quality? Our experiments
show that this is indeed the case: we can increase speed by up to a factor 2.3
with small gains in translation quality, while an 18-4 deep encoder
configuration boosts translation quality by +1.42 BLEU (En-De) at a speed-up of
1.4.
- Abstract(参考訳): その効果と性能のため、変圧器の翻訳モデルは、最近はプロービングに基づくアプローチで広く注目を集めている。
以前の研究は、エンコーダのソース言語的特徴の使用または調査に焦点を当てていた。
現在までトランスフォーマー層における単語翻訳の進化は研究されていない。
典型的には、エンコーダ層がソース情報をキャプチャし、デコーダ層が翻訳すると仮定する。
翻訳はすでにエンコーダ層や入力埋め込み層で徐々に行われています。
さらに驚くことに、下位のデコーダレイヤのいくつかは、実際にはそれほどデコードを行わない。
我々は、トランスフォーマーデコーダの最終的な訓練および凍結された分類器レベルに解析された層の表現を投影し、単語の翻訳精度を計測するプロービングアプローチの観点から、これらすべてを示す。
もし変換が既にエンコーダ層で発生しているなら、おそらくエンコーダ層数を増加させ、デコーダ層数を減少させ、デコーダ速度を増加させ、変換品質を損なうことなく、デコーダ層を増加させることができるだろうか?
翻訳品質の小さな向上で最大2.3倍の速度向上が可能で、18-4のディープエンコーダ構成で1.42 bleu (en-de) の高速化を実現しています。
関連論文リスト
- DecoderLens: Layerwise Interpretation of Encoder-Decoder Transformers [6.405360669408265]
本稿では,エンコーダ・デコーダ変換器を簡易に解析する手法を提案する。
LogitLens(デコーダのみのトランスフォーマー)にインスパイアされたこの手法では、デコーダが中間エンコーダ層を横断的に表現できるようにする。
質問応答,論理的推論,音声認識,機械翻訳を訓練したモデルに適用したDecoderLensの結果を報告する。
論文 参考訳(メタデータ) (2023-10-05T17:04:59Z) - GTrans: Grouping and Fusing Transformer Layers for Neural Machine
Translation [107.2752114891855]
トランスフォーマー構造は、エンコーダとデコーダのネットワーク層によって積み重ねられ、ニューラルマシン翻訳において大きな発展を遂げる。
本稿では,エンコーダとデコーダの多層表現を異なるグループに柔軟に分割し,これらの特徴を融合して目的語を生成するグループトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2022-07-29T04:10:36Z) - Multilingual Neural Machine Translation with Deep Encoder and Multiple
Shallow Decoders [77.2101943305862]
本稿では,複数の浅層デコーダ(DEMSD)を持つディープエンコーダを提案する。
2層デコーダを用いたDEMDモデルは、翻訳品質の低下のない標準トランスモデルと比較して平均1.8倍の高速化が得られる。
論文 参考訳(メタデータ) (2022-06-05T01:15:04Z) - DeltaLM: Encoder-Decoder Pre-training for Language Generation and
Translation by Augmenting Pretrained Multilingual Encoders [92.90543340071007]
本稿では,事前訓練された多言語エンコーダデコーダモデルDeltaLMを紹介する。
具体的には,事前学習した多言語エンコーダをデコーダで拡張し,自己指導型で事前学習する。
実験により、DeltaLMは自然言語生成と翻訳の両方のタスクにおいて、様々な強力なベースラインを上回ります。
論文 参考訳(メタデータ) (2021-06-25T16:12:10Z) - On the Sub-Layer Functionalities of Transformer Decoder [74.83087937309266]
トランスフォーマーをベースとしたデコーダは,ソースおよびターゲット言語からの情報をいかに活用するかを検討する。
これらの知見に基づき,各トランスフォーマーデコーダ層内の残フィードフォワードモジュールは,性能の低下を最小限に抑えられることを示した。
論文 参考訳(メタデータ) (2020-10-06T11:50:54Z) - On Sparsifying Encoder Outputs in Sequence-to-Sequence Models [90.58793284654692]
我々はTransformerをテストベッドとして、エンコーダとデコーダの間にあるゲートの層を導入します。
ゲートは、パリシティ誘導L0ペナルティの期待値を用いて正規化される。
このスペーサー化が2つの機械翻訳と2つの要約タスクに与える影響について検討する。
論文 参考訳(メタデータ) (2020-04-24T16:57:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。