論文の概要: End-to-End Speech-Translation with Knowledge Distillation: FBK@IWSLT2020
- arxiv url: http://arxiv.org/abs/2006.02965v1
- Date: Thu, 4 Jun 2020 15:47:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 12:41:13.773314
- Title: End-to-End Speech-Translation with Knowledge Distillation: FBK@IWSLT2020
- Title(参考訳): 知識蒸留によるエンドツーエンド音声翻訳:FBK@IWSLT2020
- Authors: Marco Gaido, Mattia Antonino Di Gangi, Matteo Negri, Marco Turchi
- Abstract要約: 本稿では,FBKによるIWSLT 2020オフライン音声翻訳(ST)タスクへの参加について述べる。
このタスクは、英語のTEDトーク音声をドイツ語のテキストに翻訳するシステムの能力を評価する。
本システムは音声データに対するTransformerの適応に基づくエンドツーエンドモデルである。
- 参考スコア(独自算出の注目度): 20.456325305495966
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper describes FBK's participation in the IWSLT 2020 offline speech
translation (ST) task. The task evaluates systems' ability to translate English
TED talks audio into German texts. The test talks are provided in two versions:
one contains the data already segmented with automatic tools and the other is
the raw data without any segmentation. Participants can decide whether to work
on custom segmentation or not. We used the provided segmentation. Our system is
an end-to-end model based on an adaptation of the Transformer for speech data.
Its training process is the main focus of this paper and it is based on: i)
transfer learning (ASR pretraining and knowledge distillation), ii) data
augmentation (SpecAugment, time stretch and synthetic data), iii) combining
synthetic and real data marked as different domains, and iv) multi-task
learning using the CTC loss. Finally, after the training with word-level
knowledge distillation is complete, our ST models are fine-tuned using label
smoothed cross entropy. Our best model scored 29 BLEU on the MuST-C En-De test
set, which is an excellent result compared to recent papers, and 23.7 BLEU on
the same data segmented with VAD, showing the need for researching solutions
addressing this specific data condition.
- Abstract(参考訳): 本稿では,FBKによるIWSLT 2020オフライン音声翻訳(ST)タスクへの参加について述べる。
このタスクは、英語のTEDトーク音声をドイツ語のテキストに翻訳するシステムの能力を評価する。
テストトークは2つのバージョンで提供される: 1つは、既に自動ツールで区切られたデータを含み、もう1つは、セグメンテーションなしで生のデータである。
参加者はカスタムセグメンテーションに取り組むかどうかを判断できる。
提供されたセグメンテーションを使用しました。
本システムは音声データに対するTransformerの適応に基づくエンドツーエンドモデルである。
本論文の焦点はトレーニングプロセスであり,その基礎は次のとおりである。
一 トランスファーラーニング(ASR予習及び知識蒸留)
二 データ強化(特定拡張、時間延長及び合成データ)
三 異なるドメインとしてマークされた合成及び実データを組み合わせること。
iv) CTC損失を用いたマルチタスク学習。
最後に,単語レベルの知識蒸留が完了した後,ラベルスムーズなクロスエントロピーを用いてSTモデルを微調整する。
これは最近の論文と比較して優れた結果であり、vadで区切られた同じデータでは23.7 bleuであり、この特定のデータ条件に対するソリューションの研究の必要性を示している。
関連論文リスト
- Improving End-to-End Speech Processing by Efficient Text Data
Utilization with Latent Synthesis [17.604583337593677]
高性能エンドツーエンド音声(E2E)処理モデルの訓練には,大量のラベル付き音声データが必要となる。
E2E音声処理モデルのための効率的なテキストデータ利用フレームワークLaSynを提案する。
論文 参考訳(メタデータ) (2023-10-09T03:10:49Z) - M3ST: Mix at Three Levels for Speech Translation [66.71994367650461]
本稿では,M3ST法を3段階に分けて提案し,拡張学習コーパスの多様性を高める。
ファインチューニングの第1段階では、単語レベル、文レベル、フレームレベルを含む3段階のトレーニングコーパスを混合し、モデル全体を混合データで微調整する。
MuST-C音声翻訳ベンチマークと分析実験により、M3STは現在の強いベースラインより優れ、平均的なBLEU29.9の8方向の最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2022-12-07T14:22:00Z) - BJTU-WeChat's Systems for the WMT22 Chat Translation Task [66.81525961469494]
本稿では,WMT'22チャット翻訳タスクに対して,北京地東大学とWeChat AIを共同で提案する。
Transformerに基づいて、いくつかの有効な変種を適用します。
本システムでは,0.810と0.946のCOMETスコアを達成している。
論文 参考訳(メタデータ) (2022-11-28T02:35:04Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - A study on the efficacy of model pre-training in developing neural
text-to-speech system [55.947807261757056]
本研究の目的は,モデル事前学習がTSシステム性能に肯定的に寄与する理由と方法を明らかにすることである。
トレーニング前のデータを元のサイズの1/8に減らすと,TSシステムは同等の性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-10-08T02:09:28Z) - Dealing with training and test segmentation mismatch: FBK@IWSLT2021 [13.89298686257514]
本稿では,FIWLT 2021オフライン音声翻訳タスクに対するFBKのシステム適用について述べる。
英語の音声データをドイツ語のテキストに変換するために訓練されたトランスフォーマーベースのアーキテクチャである。
訓練パイプラインは、知識蒸留と2段階の微調整手順により特徴づけられる。
論文 参考訳(メタデータ) (2021-06-23T18:11:32Z) - Exploring Transfer Learning For End-to-End Spoken Language Understanding [8.317084844841323]
スピーチから仮説に直接移動するエンドツーエンド(E2E)システムは、より魅力的なオプションです。
音声からテキストまでの複数のタスクを共同トレーニングするE2Eシステムを提案する。
個々のタスクで訓練されたE2Eモデルの性能を上回ります。
論文 参考訳(メタデータ) (2020-12-15T19:02:15Z) - Phonemer at WNUT-2020 Task 2: Sequence Classification Using COVID
Twitter BERT and Bagging Ensemble Technique based on Plurality Voting [0.0]
新型コロナウイルス(COVID-19)に関連する英語のつぶやきを自動的に識別するシステムを開発した。
最終アプローチでは0.9037のF1スコアを達成し,F1スコアを評価基準として総合6位にランク付けした。
論文 参考訳(メタデータ) (2020-10-01T10:54:54Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z) - You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文 参考訳(メタデータ) (2020-05-14T17:24:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。