論文の概要: Guiding Teacher Forcing with Seer Forcing for Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2106.06751v1
- Date: Sat, 12 Jun 2021 11:38:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-15 16:14:04.317342
- Title: Guiding Teacher Forcing with Seer Forcing for Neural Machine Translation
- Title(参考訳): ニューラルマシン翻訳にシーラーを強制する教師を指導する
- Authors: Yang Feng, Shuhao Gu, Dengji Guo, Zhengxin Yang, Chenze Shao
- Abstract要約: トレーニング中に、別のデコーダである seer decoder を encoder-decoder フレームワークに導入する。
我々は,従来のデコーダに対して,知識蒸留によりシーラーデコーダの挙動をシミュレートするよう強制する。
実験により,本手法は競争ベースラインを著しく上回り,大規模データセットの大幅な改善を実現することができることが示された。
- 参考スコア(独自算出の注目度): 11.570746514243117
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Although teacher forcing has become the main training paradigm for neural
machine translation, it usually makes predictions only conditioned on past
information, and hence lacks global planning for the future. To address this
problem, we introduce another decoder, called seer decoder, into the
encoder-decoder framework during training, which involves future information in
target predictions. Meanwhile, we force the conventional decoder to simulate
the behaviors of the seer decoder via knowledge distillation. In this way, at
test the conventional decoder can perform like the seer decoder without the
attendance of it. Experiment results on the Chinese-English, English-German and
English-Romanian translation tasks show our method can outperform competitive
baselines significantly and achieves greater improvements on the bigger data
sets. Besides, the experiments also prove knowledge distillation the best way
to transfer knowledge from the seer decoder to the conventional decoder
compared to adversarial learning and L2 regularization.
- Abstract(参考訳): 教師の強制は、ニューラルマシン翻訳の主要なトレーニングパラダイムとなっているが、通常は過去の情報のみに基づいて予測を行うため、将来的なグローバルな計画が欠如している。
この問題に対処するために、ターゲット予測における将来の情報を含むエンコーダ・デコーダフレームワークにシーラデコーダと呼ばれる別のデコーダを導入する。
一方,従来のデコーダでは知識蒸留によりシーラーデコーダの動作をシミュレートする。
このようにして、テストでは、従来のデコーダはシーアデコーダのように実行することができる。
中国語・英語・ドイツ語・英語・ルーマニア語翻訳タスクの実験結果から,提案手法は競争ベースラインを著しく上回り,より大きなデータセットを改善することができることが示された。
さらに,本実験は, 逆学習やL2正規化と比較して, シーラーデコーダから従来のデコーダへ知識を伝達する最善の方法であることを示す。
関連論文リスト
- Think Twice before Driving: Towards Scalable Decoders for End-to-End
Autonomous Driving [74.28510044056706]
既存のメソッドは通常、分離されたエンコーダ-デコーダパラダイムを採用する。
本研究は,この問題を2つの原則で緩和することを目的としている。
まず、エンコーダの特徴に基づいて、粗い将来の位置と行動を予測する。
そして、その位置と動作を条件に、将来のシーンを想像して、それに従って運転した場合にその影響を確認する。
論文 参考訳(メタデータ) (2023-05-10T15:22:02Z) - Decoder-Only or Encoder-Decoder? Interpreting Language Model as a
Regularized Encoder-Decoder [75.03283861464365]
seq2seqタスクは、与えられた入力ソースシーケンスに基づいてターゲットシーケンスを生成することを目的としている。
伝統的に、seq2seqタスクのほとんどはエンコーダによって解決され、ソースシーケンスとデコーダをエンコードしてターゲットテキストを生成する。
最近、デコーダのみの言語モデルをseq2seqタスクに直接適用する、多くの新しいアプローチが出現しました。
論文 参考訳(メタデータ) (2023-04-08T15:44:29Z) - Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired
Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。
提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文 参考訳(メタデータ) (2022-03-31T15:33:56Z) - Look Backward and Forward: Self-Knowledge Distillation with
Bidirectional Decoder for Neural Machine Translation [9.279287354043289]
ニューラルネットワーク翻訳のための双方向デコーダを用いた自己知識蒸留(SBD-NMT)
我々は、フォワードデコーダに効果的な正規化手法として機能する後方デコーダをデプロイする。
実験により,本手法は複数の機械翻訳データセットの強力なトランスフォーマーベースラインよりもはるかに優れていることがわかった。
論文 参考訳(メタデータ) (2022-03-10T09:21:28Z) - Adversarial Neural Networks for Error Correcting Codes [76.70040964453638]
機械学習(ML)モデルの性能と適用性を高めるための一般的なフレームワークを紹介する。
本稿では,MLデコーダと競合する識別器ネットワークを組み合わせることを提案する。
我々のフレームワークはゲーム理論であり、GAN(Generative Adversarial Network)によって動機付けられている。
論文 参考訳(メタデータ) (2021-12-21T19:14:44Z) - DeltaLM: Encoder-Decoder Pre-training for Language Generation and
Translation by Augmenting Pretrained Multilingual Encoders [92.90543340071007]
本稿では,事前訓練された多言語エンコーダデコーダモデルDeltaLMを紹介する。
具体的には,事前学習した多言語エンコーダをデコーダで拡張し,自己指導型で事前学習する。
実験により、DeltaLMは自然言語生成と翻訳の両方のタスクにおいて、様々な強力なベースラインを上回ります。
論文 参考訳(メタデータ) (2021-06-25T16:12:10Z) - Stacked Acoustic-and-Textual Encoding: Integrating the Pre-trained
Models into Speech Translation Encoders [30.160261563657947]
エンドツーエンドの音声翻訳では、事前トレーニングが有望です。
Stackedを提案します。
音声翻訳のための音響・テキスト(SATE)法
エンコーダはアコースティックシーケンスを通常どおりに処理することから始まり、その後はアコースティックシーケンスのように振る舞う。
MTエンコーダは入力シーケンスのグローバル表現である。
論文 参考訳(メタデータ) (2021-05-12T16:09:53Z) - Bi-Decoder Augmented Network for Neural Machine Translation [108.3931242633331]
本稿では,ニューラルマシン翻訳タスクのためのBi-Decoder Augmented Network (BiDAN)を提案する。
各デコーダは入力されたテキストの表現を対応する言語に変換するため、2つの目的語と共同でトレーニングすることで、共有エンコーダは言語に依存しない意味空間を生成することができる。
論文 参考訳(メタデータ) (2020-01-14T02:05:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。