論文の概要: Source and Target Bidirectional Knowledge Distillation for End-to-end
Speech Translation
- arxiv url: http://arxiv.org/abs/2104.06457v1
- Date: Tue, 13 Apr 2021 19:00:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-15 13:09:55.900229
- Title: Source and Target Bidirectional Knowledge Distillation for End-to-end
Speech Translation
- Title(参考訳): エンドツーエンド音声翻訳のためのソースおよびターゲット双方向知識蒸留
- Authors: Hirofumi Inaguma, Tatsuya Kawahara, Shinji Watanabe
- Abstract要約: 外部テキストベースNMTモデルからのシーケンスレベルの知識蒸留(SeqKD)に注目した。
E2E-STモデルを訓練し、パラフレーズ転写を1つのデコーダで補助タスクとして予測する。
- 参考スコア(独自算出の注目度): 88.78138830698173
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A conventional approach to improving the performance of end-to-end speech
translation (E2E-ST) models is to leverage the source transcription via
pre-training and joint training with automatic speech recognition (ASR) and
neural machine translation (NMT) tasks. However, since the input modalities are
different, it is difficult to leverage source language text successfully. In
this work, we focus on sequence-level knowledge distillation (SeqKD) from
external text-based NMT models. To leverage the full potential of the source
language information, we propose backward SeqKD, SeqKD from a target-to-source
backward NMT model. To this end, we train a bilingual E2E-ST model to predict
paraphrased transcriptions as an auxiliary task with a single decoder. The
paraphrases are generated from the translations in bitext via back-translation.
We further propose bidirectional SeqKD in which SeqKD from both forward and
backward NMT models is combined. Experimental evaluations on both
autoregressive and non-autoregressive models show that SeqKD in each direction
consistently improves the translation performance, and the effectiveness is
complementary regardless of the model capacity.
- Abstract(参考訳): e2e-st(end-to-end speech translation)モデルの性能向上のための従来のアプローチは、自動音声認識(asr)とニューラルマシン翻訳(neural machine translation:nmt)タスクによる事前学習と合同トレーニングを通じて、ソース転写を活用することである。
しかし、入力モダリティが異なるため、ソースコードのテキストをうまく活用することは困難である。
本研究では,外部テキストベースNMTモデルからのシーケンスレベルの知識蒸留(SeqKD)に注目した。
ソース言語情報の潜在能力を最大限に活用するために,ターゲットからソースへのNMTモデルから逆方向のSeqKD,SeqKDを提案する。
この目的のために,2言語E2E-STモデルを訓練し,1つのデコーダを用いてパラフレーズ転写を補助的タスクとして予測する。
パラフレーズはバックトランスレーションを通じてバイテキストの翻訳から生成される。
さらに,前向きNMTモデルと後向きNMTモデルの両方からSeqKDを組み合わせた双方向SeqKDを提案する。
自己回帰モデルと非自己回帰モデルの両方で実験的に評価したところ、各方向のSeqKDは翻訳性能を一貫して改善し、モデル容量に関係なく相補的であることがわかった。
関連論文リスト
- Confidence Based Bidirectional Global Context Aware Training Framework
for Neural Machine Translation [74.99653288574892]
我々は、ニューラルネットワーク翻訳(NMT)のための信頼に基づく双方向グローバルコンテキスト認識(CBBGCA)トレーニングフレームワークを提案する。
提案したCBBGCAトレーニングフレームワークは,3つの大規模翻訳データセットにおいて,NMTモデルを+1.02,+1.30,+0.57 BLEUスコアで大幅に改善する。
論文 参考訳(メタデータ) (2022-02-28T10:24:22Z) - Improving Neural Machine Translation by Bidirectional Training [85.64797317290349]
我々は、ニューラルネットワーク翻訳のためのシンプルで効果的な事前学習戦略である双方向トレーニング(BiT)を提案する。
具体的には、初期モデルのパラメータを双方向に更新し、正常にモデルを調整する。
実験の結果,BiTは8つの言語対上の15の翻訳タスクに対して,SOTAニューラルマシン翻訳性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2021-09-16T07:58:33Z) - Self-supervised and Supervised Joint Training for Resource-rich Machine
Translation [30.502625878505732]
テキスト表現の自己教師付き事前学習が低リソースニューラルネットワーク翻訳(NMT)に成功している
我々は,NMTモデルを最適化するために,自己教師付き学習と教師付き学習を組み合わせた共同学習手法である$F$-XEnDecを提案する。
論文 参考訳(メタデータ) (2021-06-08T02:35:40Z) - Tight Integrated End-to-End Training for Cascaded Speech Translation [40.76367623739673]
カスケード音声翻訳モデルは、離散的および非微分可能転写に依存している。
直接音声翻訳は、誤りの伝播を避けるための代替手法である。
この研究は、カスケードコンポーネント全体を1つのエンドツーエンドのトレーニング可能なモデルにまとめることの可能性を探る。
論文 参考訳(メタデータ) (2020-11-24T15:43:49Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Neural Simultaneous Speech Translation Using Alignment-Based Chunking [4.224809458327515]
同時機械翻訳では、ソース単語の連続ストリームが与えられた部分翻訳をいつ生成するかを決定することが目的である。
入力や出力語の生成を継続する際の動的決定を動的に行うニューラルネットワーク翻訳(NMT)モデルを提案する。
We results on the IWSLT 2020 English-to-German task outperform a wait-k baseline by 2.6 to 3.7% BLEU absolute。
論文 参考訳(メタデータ) (2020-05-29T10:20:48Z) - DiscreTalk: Text-to-Speech as a Machine Translation Problem [52.33785857500754]
本稿ではニューラルマシン翻訳(NMT)に基づくエンドツーエンドテキスト音声合成(E2E-TTS)モデルを提案する。
提案モデルは,非自己回帰ベクトル量子化変分オートエンコーダ(VQ-VAE)モデルと自己回帰トランスフォーマー-NMTモデルという2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2020-05-12T02:45:09Z) - Learning Contextualized Sentence Representations for Document-Level
Neural Machine Translation [59.191079800436114]
文書レベルの機械翻訳は、文間の依存関係をソース文の翻訳に組み込む。
本稿では,ニューラルマシン翻訳(NMT)を訓練し,文のターゲット翻訳と周辺文の双方を予測することによって,文間の依存関係をモデル化するフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-30T03:38:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。