Fugu-MT 論文翻訳(概要): Look Backward and Forward: Self-Knowledge Distillation with Bidirectional Decoder for Neural Machine Translation

論文の概要: Look Backward and Forward: Self-Knowledge Distillation with Bidirectional Decoder for Neural Machine Translation

arxiv url: http://arxiv.org/abs/2203.05248v1
Date: Thu, 10 Mar 2022 09:21:28 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-11 14:39:16.452906
Title: Look Backward and Forward: Self-Knowledge Distillation with Bidirectional Decoder for Neural Machine Translation
Title（参考訳）: 神経機械翻訳のための双方向デコーダを用いた自己認識蒸留
Authors: Xuanwei Zhang and Libin Shen and Disheng Pan and Liang Wang and Yanjun Miao
Abstract要約: ニューラルマシン翻訳のための双方向デコーダを用いた自己知識蒸留法(SBD-NMT)を提案する。長期的未来に関する後方デコーダの情報を活用することで、後方デコーダで学んだ知識を蒸留することで、自動回帰NMTモデルを先進的な計画に導くことができる。
参考スコア（独自算出の注目度）: 9.279287354043289
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Neural Machine Translation(NMT) models are usually trained via unidirectional decoder which corresponds to optimizing one-step-ahead prediction. However, this kind of unidirectional decoding framework may incline to focus on local structure rather than global coherence. To alleviate this problem, we propose a novel method, Self-Knowledge Distillation with Bidirectional Decoder for Neural Machine Translation(SBD-NMT). We deploy a backward decoder which can act as an effective regularization method to the forward decoder. By leveraging the backward decoder's information about the longer-term future, distilling knowledge learned in the backward decoder can encourage auto-regressive NMT models to plan ahead. Experiments show that our method is significantly better than the strong Transformer baselines on multiple machine translation data sets. Our codes will be released on github soon.
Abstract（参考訳）: ニューラルネットワーク翻訳(NMT)モデルは通常、一方向デコーダを用いて訓練される。しかしながら、このような一方向のデコーディングフレームワークは、グローバルコヒーレンスではなく、局所的な構造にフォーカスする傾向がある。この問題を軽減するために,ニューラルマシン翻訳のための双方向デコーダを用いた自己知識蒸留法(SBD-NMT)を提案する。我々は、フォワードデコーダに効果的な正規化手法として機能する後方デコーダをデプロイする。長期的未来に関する後方デコーダの情報を活用することで、後方デコーダで学んだ知識を蒸留することで、自動回帰NMTモデルを先進的な計画に導くことができる。実験の結果,複数機械翻訳データセットの強変圧器ベースラインよりも有意に優れていることがわかった。私たちのコードはもうすぐgithubでリリースされるでしょう。

関連論文リスト

Aligner-Encoders: Self-Attention Transformers Can Be Self-Transducers [14.91083492000769]
近年採用されているトランス方式のエンコーダは,フォワードパス中に内部的にアライメントを行うことができることを示す。この新たな現象により、よりシンプルで効率的なモデル"Aligner-Encoder"が実現される。我々は,芸術の状況に非常に近い性能を実証する実験を行った。
論文参考訳（メタデータ） (2025-02-06T22:09:52Z)
Think Twice before Driving: Towards Scalable Decoders for End-to-End Autonomous Driving [74.28510044056706]
既存のメソッドは通常、分離されたエンコーダ-デコーダパラダイムを採用する。本研究は,この問題を2つの原則で緩和することを目的としている。まず、エンコーダの特徴に基づいて、粗い将来の位置と行動を予測する。そして、その位置と動作を条件に、将来のシーンを想像して、それに従って運転した場合にその影響を確認する。
論文参考訳（メタデータ） (2023-05-10T15:22:02Z)
Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文参考訳（メタデータ） (2022-03-31T15:33:56Z)
Back from the future: bidirectional CTC decoding using future information in speech recognition [3.386091225912298]
本稿では,双方向のニューラル言語モデルを用いて,コネクティニスト時空間(CTC)モデルの出力を復号する簡易かつ効果的な手法を提案する。両方向のビームサーチに基づく提案手法は,CTCグレディ復号出力を利用して,ノイズのある将来の情報を表す。
論文参考訳（メタデータ） (2021-10-07T10:42:02Z)
DeltaLM: Encoder-Decoder Pre-training for Language Generation and Translation by Augmenting Pretrained Multilingual Encoders [92.90543340071007]
本稿では,事前訓練された多言語エンコーダデコーダモデルDeltaLMを紹介する。具体的には,事前学習した多言語エンコーダをデコーダで拡張し,自己指導型で事前学習する。実験により、DeltaLMは自然言語生成と翻訳の両方のタスクにおいて、様々な強力なベースラインを上回ります。
論文参考訳（メタデータ） (2021-06-25T16:12:10Z)
Guiding Teacher Forcing with Seer Forcing for Neural Machine Translation [11.570746514243117]
トレーニング中に、別のデコーダである seer decoder を encoder-decoder フレームワークに導入する。我々は,従来のデコーダに対して,知識蒸留によりシーラーデコーダの挙動をシミュレートするよう強制する。実験により,本手法は競争ベースラインを著しく上回り,大規模データセットの大幅な改善を実現することができることが示された。
論文参考訳（メタデータ） (2021-06-12T11:38:40Z)
Cross-Thought for Sentence Encoder Pre-training [89.32270059777025]
Cross-Thoughtは、事前トレーニングシーケンスエンコーダに対する新しいアプローチである。我々は、Transformerベースのシーケンスエンコーダを、多数の短いシーケンスに対してトレーニングする。質問応答とテキストのエンコーダタスクの実験は、事前学習したエンコーダが最先端のエンコーダより優れていることを示す。
論文参考訳（メタデータ） (2020-10-07T21:02:41Z)
On the Sub-Layer Functionalities of Transformer Decoder [74.83087937309266]
トランスフォーマーをベースとしたデコーダは,ソースおよびターゲット言語からの情報をいかに活用するかを検討する。これらの知見に基づき,各トランスフォーマーデコーダ層内の残フィードフォワードモジュールは,性能の低下を最小限に抑えられることを示した。
論文参考訳（メタデータ） (2020-10-06T11:50:54Z)
Bi-Decoder Augmented Network for Neural Machine Translation [108.3931242633331]
本稿では,ニューラルマシン翻訳タスクのためのBi-Decoder Augmented Network (BiDAN)を提案する。各デコーダは入力されたテキストの表現を対応する言語に変換するため、2つの目的語と共同でトレーニングすることで、共有エンコーダは言語に依存しない意味空間を生成することができる。
論文参考訳（メタデータ） (2020-01-14T02:05:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。