論文の概要: Improving End-to-End Speech Translation by Imitation-Based Knowledge
Distillation with Synthetic Transcripts
- arxiv url: http://arxiv.org/abs/2307.08426v1
- Date: Mon, 17 Jul 2023 12:14:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 13:37:03.430618
- Title: Improving End-to-End Speech Translation by Imitation-Based Knowledge
Distillation with Synthetic Transcripts
- Title(参考訳): 合成転写物を用いた模倣知識蒸留によるエンドツーエンド音声翻訳の改善
- Authors: Rebekka Hubert and Artem Sokolov and Stefan Riezler
- Abstract要約: そこで本研究では,教師のNMTシステムで手書き文字起こしに頼らずに,AST学生の誤りを訂正する模倣学習手法を提案する。
我々は,NMT教師が自動書き起こしの誤りから回復でき,AST学生の誤訳を訂正できることを示した。
- 参考スコア(独自算出の注目度): 12.097786953347828
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end automatic speech translation (AST) relies on data that combines
audio inputs with text translation outputs. Previous work used existing large
parallel corpora of transcriptions and translations in a knowledge distillation
(KD) setup to distill a neural machine translation (NMT) into an AST student
model. While KD allows using larger pretrained models, the reliance of previous
KD approaches on manual audio transcripts in the data pipeline restricts the
applicability of this framework to AST. We present an imitation learning
approach where a teacher NMT system corrects the errors of an AST student
without relying on manual transcripts. We show that the NMT teacher can recover
from errors in automatic transcriptions and is able to correct erroneous
translations of the AST student, leading to improvements of about 4 BLEU points
over the standard AST end-to-end baseline on the English-German CoVoST-2 and
MuST-C datasets, respectively. Code and data are publicly
available.\footnote{\url{https://github.com/HubReb/imitkd_ast/releases/tag/v1.1}}
- Abstract(参考訳): エンドツーエンドの自動音声翻訳(AST)は、音声入力とテキスト翻訳出力を組み合わせたデータに依存する。
これまでの研究では、知識蒸留(KD)装置で既存の大きな平行転写と翻訳のコーパスを使用して、ニューラルマシン翻訳(NMT)をAST学生モデルに蒸留した。
KDはより大きな事前トレーニングモデルを使用することができるが、以前のKDアプローチはデータパイプラインで手動のオーディオ書き起こしに依存しており、このフレームワークをASTに適用することは制限されている。
本稿では,教師のnmtシステムが,手書きの書き起こしに頼らずにast学生の誤りを訂正する模倣学習手法を提案する。
我々は,NMT教師が自動転写における誤りから回復し,AST学生の誤訳を訂正できることを示し,英語-ドイツ語のCoVoST-2データセットと MuST-C データセットの標準ベースラインよりも約4点のBLEUポイントの改善が得られた。
コードとデータは公開されている。
\footnote{\url{https://github.com/HubReb/imitkd_ast/releases/tag/v1.1}}
関連論文リスト
- Towards Zero-Shot Multimodal Machine Translation [64.9141931372384]
本稿では,マルチモーダル機械翻訳システムの学習において,完全教師付きデータの必要性を回避する手法を提案する。
我々の手法はZeroMMTと呼ばれ、2つの目的の混合で学習することで、強いテキストのみの機械翻訳(MT)モデルを適応させることである。
本手法が完全に教師付きトレーニングデータを持たない言語に一般化されることを証明するため,CoMMuTE評価データセットをアラビア語,ロシア語,中国語の3言語に拡張した。
論文 参考訳(メタデータ) (2024-07-18T15:20:31Z) - Back Translation for Speech-to-text Translation Without Transcripts [11.13240570688547]
単言語対象データから擬似STデータを合成するためのST(BT4ST)の逆変換アルゴリズムを開発した。
短時間から長期にわたる生成と一対一のマッピングによる課題を解消するため,自己管理型離散単位を導入した。
合成STデータを用いて、MuST-C En-De、En-Fr、En-Esデータセット上で平均2.3BLEUを達成する。
論文 参考訳(メタデータ) (2023-05-15T15:12:40Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - The NiuTrans End-to-End Speech Translation System for IWSLT 2021 Offline
Task [23.008938777422767]
本稿では,IWSLT 2021オフラインタスクに対して,NuTransのエンドツーエンド音声翻訳システムを提案する。
我々はTransformerベースのモデルアーキテクチャを使用し、Conformer、相対位置符号化、スタックされた音響およびテキスト符号化により拡張する。
我々は MuST-C En-De テストセット上で 33.84 BLEU 点を達成する。
論文 参考訳(メタデータ) (2021-07-06T07:45:23Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - Rejuvenating Low-Frequency Words: Making the Most of Parallel Data in
Non-Autoregressive Translation [98.11249019844281]
知識蒸留(KD)は、非自己回帰翻訳(NAT)モデルを訓練するための合成データを構築するために一般的に用いられる。
低周波対象語に対するアライメントを向上するために,逆KDを提案する。
その結果,提案手法は翻訳品質を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-06-02T02:41:40Z) - Source and Target Bidirectional Knowledge Distillation for End-to-end
Speech Translation [88.78138830698173]
外部テキストベースNMTモデルからのシーケンスレベルの知識蒸留(SeqKD)に注目した。
E2E-STモデルを訓練し、パラフレーズ転写を1つのデコーダで補助タスクとして予測する。
論文 参考訳(メタデータ) (2021-04-13T19:00:51Z) - Consecutive Decoding for Speech-to-text Translation [51.155661276936044]
COnSecutive Transcription and Translation (COSTT)は、音声からテキストへの翻訳に不可欠な手法である。
鍵となるアイデアは、ソースの書き起こしとターゲットの翻訳テキストを1つのデコーダで生成することである。
本手法は3つの主流データセットで検証する。
論文 参考訳(メタデータ) (2020-09-21T10:10:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。