論文の概要: Look Backward and Forward: Self-Knowledge Distillation with
Bidirectional Decoder for Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2203.05248v2
- Date: Fri, 11 Mar 2022 01:57:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-14 11:32:45.866345
- Title: Look Backward and Forward: Self-Knowledge Distillation with
Bidirectional Decoder for Neural Machine Translation
- Title(参考訳): 神経機械翻訳のための双方向デコーダを用いた自己認識蒸留
- Authors: Xuanwei Zhang and Libin Shen and Disheng Pan and Liang Wang and Yanjun
Miao
- Abstract要約: ニューラルネットワーク翻訳のための双方向デコーダを用いた自己知識蒸留(SBD-NMT)
我々は、フォワードデコーダに効果的な正規化手法として機能する後方デコーダをデプロイする。
実験により,本手法は複数の機械翻訳データセットの強力なトランスフォーマーベースラインよりもはるかに優れていることがわかった。
- 参考スコア(独自算出の注目度): 9.279287354043289
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural Machine Translation(NMT) models are usually trained via unidirectional
decoder which corresponds to optimizing one-step-ahead prediction. However,
this kind of unidirectional decoding framework may incline to focus on local
structure rather than global coherence. To alleviate this problem, we propose a
novel method, Self-Knowledge Distillation with Bidirectional Decoder for Neural
Machine Translation(SBD-NMT). We deploy a backward decoder which can act as an
effective regularization method to the forward decoder. By leveraging the
backward decoder's information about the longer-term future, distilling
knowledge learned in the backward decoder can encourage auto-regressive NMT
models to plan ahead. Experiments show that our method is significantly better
than the strong Transformer baselines on multiple machine translation data
sets.
- Abstract(参考訳): ニューラルネットワーク翻訳(NMT)モデルは通常、一方向デコーダを用いて訓練される。
しかしながら、このような一方向のデコーディングフレームワークは、グローバルコヒーレンスではなく、局所的な構造にフォーカスする傾向がある。
この問題を軽減するために,ニューラルマシン翻訳のための双方向デコーダを用いた自己知識蒸留法(SBD-NMT)を提案する。
我々は、フォワードデコーダに効果的な正規化手法として機能する後方デコーダをデプロイする。
長期的未来に関する後方デコーダの情報を活用することで、後方デコーダで学んだ知識を蒸留することで、自動回帰NMTモデルを先進的な計画に導くことができる。
実験の結果,複数機械翻訳データセットの強変圧器ベースラインよりも有意に優れていることがわかった。
関連論文リスト
- Think Twice before Driving: Towards Scalable Decoders for End-to-End
Autonomous Driving [74.28510044056706]
既存のメソッドは通常、分離されたエンコーダ-デコーダパラダイムを採用する。
本研究は,この問題を2つの原則で緩和することを目的としている。
まず、エンコーダの特徴に基づいて、粗い将来の位置と行動を予測する。
そして、その位置と動作を条件に、将来のシーンを想像して、それに従って運転した場合にその影響を確認する。
論文 参考訳(メタデータ) (2023-05-10T15:22:02Z) - Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired
Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。
提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文 参考訳(メタデータ) (2022-03-31T15:33:56Z) - Back from the future: bidirectional CTC decoding using future
information in speech recognition [3.386091225912298]
本稿では,双方向のニューラル言語モデルを用いて,コネクティニスト時空間(CTC)モデルの出力を復号する簡易かつ効果的な手法を提案する。
両方向のビームサーチに基づく提案手法は,CTCグレディ復号出力を利用して,ノイズのある将来の情報を表す。
論文 参考訳(メタデータ) (2021-10-07T10:42:02Z) - DeltaLM: Encoder-Decoder Pre-training for Language Generation and
Translation by Augmenting Pretrained Multilingual Encoders [92.90543340071007]
本稿では,事前訓練された多言語エンコーダデコーダモデルDeltaLMを紹介する。
具体的には,事前学習した多言語エンコーダをデコーダで拡張し,自己指導型で事前学習する。
実験により、DeltaLMは自然言語生成と翻訳の両方のタスクにおいて、様々な強力なベースラインを上回ります。
論文 参考訳(メタデータ) (2021-06-25T16:12:10Z) - Guiding Teacher Forcing with Seer Forcing for Neural Machine Translation [11.570746514243117]
トレーニング中に、別のデコーダである seer decoder を encoder-decoder フレームワークに導入する。
我々は,従来のデコーダに対して,知識蒸留によりシーラーデコーダの挙動をシミュレートするよう強制する。
実験により,本手法は競争ベースラインを著しく上回り,大規模データセットの大幅な改善を実現することができることが示された。
論文 参考訳(メタデータ) (2021-06-12T11:38:40Z) - Cross-Thought for Sentence Encoder Pre-training [89.32270059777025]
Cross-Thoughtは、事前トレーニングシーケンスエンコーダに対する新しいアプローチである。
我々は、Transformerベースのシーケンスエンコーダを、多数の短いシーケンスに対してトレーニングする。
質問応答とテキストのエンコーダタスクの実験は、事前学習したエンコーダが最先端のエンコーダより優れていることを示す。
論文 参考訳(メタデータ) (2020-10-07T21:02:41Z) - On the Sub-Layer Functionalities of Transformer Decoder [74.83087937309266]
トランスフォーマーをベースとしたデコーダは,ソースおよびターゲット言語からの情報をいかに活用するかを検討する。
これらの知見に基づき,各トランスフォーマーデコーダ層内の残フィードフォワードモジュールは,性能の低下を最小限に抑えられることを示した。
論文 参考訳(メタデータ) (2020-10-06T11:50:54Z) - Bi-Decoder Augmented Network for Neural Machine Translation [108.3931242633331]
本稿では,ニューラルマシン翻訳タスクのためのBi-Decoder Augmented Network (BiDAN)を提案する。
各デコーダは入力されたテキストの表現を対応する言語に変換するため、2つの目的語と共同でトレーニングすることで、共有エンコーダは言語に依存しない意味空間を生成することができる。
論文 参考訳(メタデータ) (2020-01-14T02:05:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。