論文の概要: ESPnet-ST IWSLT 2021 Offline Speech Translation System
- arxiv url: http://arxiv.org/abs/2107.00636v1
- Date: Thu, 1 Jul 2021 17:49:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-02 13:37:17.002060
- Title: ESPnet-ST IWSLT 2021 Offline Speech Translation System
- Title(参考訳): ESPnet-ST IWSLT 2021オフライン音声翻訳システム
- Authors: Hirofumi Inaguma, Brian Yan, Siddharth Dalmia, Pengcheng Gu, Jiatong
Shi, Kevin Duh, Shinji Watanabe
- Abstract要約: 本稿では,ESPnet-STグループによる音声翻訳トラックにおけるIWSLT 2021の提出について述べる。
今年は、データ、アーキテクチャ、オーディオセグメンテーションのトレーニングにさまざまな取り組みを行いました。
私たちの最高のE2Eシステムは、すべてのテクニックをモデルアンサンブルと組み合わせ、31.4BLEUを達成しました。
- 参考スコア(独自算出の注目度): 56.83606198051871
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper describes the ESPnet-ST group's IWSLT 2021 submission in the
offline speech translation track. This year we made various efforts on training
data, architecture, and audio segmentation. On the data side, we investigated
sequence-level knowledge distillation (SeqKD) for end-to-end (E2E) speech
translation. Specifically, we used multi-referenced SeqKD from multiple
teachers trained on different amounts of bitext. On the architecture side, we
adopted the Conformer encoder and the Multi-Decoder architecture, which equips
dedicated decoders for speech recognition and translation tasks in a unified
encoder-decoder model and enables search in both source and target language
spaces during inference. We also significantly improved audio segmentation by
using the pyannote.audio toolkit and merging multiple short segments for long
context modeling. Experimental evaluations showed that each of them contributed
to large improvements in translation performance. Our best E2E system combined
all the above techniques with model ensembling and achieved 31.4 BLEU on the
2-ref of tst2021 and 21.2 BLEU and 19.3 BLEU on the two single references of
tst2021.
- Abstract(参考訳): 本稿では,ESPnet-STグループによる音声翻訳トラックにおけるIWSLT 2021の提出について述べる。
今年は、データ、アーキテクチャ、オーディオセグメンテーションのトレーニングにさまざまな取り組みを行いました。
データ側では,エンドツーエンド(E2E)音声翻訳のためのシーケンスレベルの知識蒸留(SeqKD)について検討した。
具体的には,複数の教師から多量のバイテキストで学習したseqkdを用いた。
アーキテクチャ面では、ConformerエンコーダとMulti-Decoderアーキテクチャを採用し、音声認識および翻訳タスク専用のデコーダを統一エンコーダデコーダモデルで装備し、推論中にソース空間とターゲット言語空間の検索を可能にする。
また, pyannote.audio ツールキットと複数の短いセグメントをマージすることで, 音声のセグメンテーションを大幅に改善した。
実験の結果,それぞれが翻訳性能を大幅に向上させた。
tst2021と21.2 BLEUで31.4 BLEU、tst2021の2つの単一の参照で19.3 BLEUを達成した。
関連論文リスト
- KIT's Multilingual Speech Translation System for IWSLT 2023 [58.5152569458259]
IWSLT 2023の多言語トラックに対する音声翻訳システムについて述べる。
このタスクは、様々な量のリソースを持つ10の言語に翻訳する必要がある。
我々のケースド音声システムは、科学的な話の翻訳において、エンドツーエンドの音声よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-06-08T16:13:20Z) - Improved Cross-Lingual Transfer Learning For Automatic Speech
Translation [18.97234151624098]
エンコーダ-デコーダシーケンス-シーケンス変換モデルのエンコーダをSAMU-XLS-Rで初期化することにより,言語間タスクの知識伝達を大幅に改善することを示す。
提案手法の有効性を,CoVoST-2とEuroparlという2つの一般的なデータセットに示す。
論文 参考訳(メタデータ) (2023-06-01T15:19:06Z) - The YiTrans End-to-End Speech Translation System for IWSLT 2022 Offline
Shared Task [92.5087402621697]
本稿では,IWSLT 2022オフラインタスクに対するエンドツーエンドYiTrans音声翻訳システムの提案について述べる。
YiTransシステムは、大規模な訓練済みエンコーダデコーダモデル上に構築されている。
最終提出は自動評価基準でまず英語・ドイツ語・英語・中国語のエンド・ツー・エンド・システムにランク付けする。
論文 参考訳(メタデータ) (2022-06-12T16:13:01Z) - The NiuTrans End-to-End Speech Translation System for IWSLT 2021 Offline
Task [23.008938777422767]
本稿では,IWSLT 2021オフラインタスクに対して,NuTransのエンドツーエンド音声翻訳システムを提案する。
我々はTransformerベースのモデルアーキテクチャを使用し、Conformer、相対位置符号化、スタックされた音響およびテキスト符号化により拡張する。
我々は MuST-C En-De テストセット上で 33.84 BLEU 点を達成する。
論文 参考訳(メタデータ) (2021-07-06T07:45:23Z) - Multilingual Speech Translation with Unified Transformer: Huawei Noah's
Ark Lab at IWSLT 2021 [33.876412404781846]
本稿では,Huawei Noah の Ark Lab から IWSLT 2021 Speech Translation (MultiST) タスクに送信されたシステムについて述べる。
我々は、MultiSTモデルに統一トランスフォーマーアーキテクチャを使用し、異なるモダリティからのデータを活用してモデルの能力を高める。
マルチタスク学習やタスクレベルのカリキュラム学習,データ拡張など,パフォーマンス向上のために,いくつかのトレーニング手法を適用した。
論文 参考訳(メタデータ) (2021-06-01T02:50:49Z) - UPC's Speech Translation System for IWSLT 2021 [2.099922236065961]
本稿では,UPC 機械翻訳グループによる IWSLT 2021 オフライン音声翻訳タスクの提出について述べる。
タスクは、tedトークから抽出された英語の音声録音をドイツ語のテキストに翻訳できるシステムを構築することにある。
提案方式は,エンコーダとデコーダ間の結合モジュールと事前学習モデルを組み合わせた音声翻訳システムである。
論文 参考訳(メタデータ) (2021-05-10T17:04:11Z) - Dual-decoder Transformer for Joint Automatic Speech Recognition and
Multilingual Speech Translation [71.54816893482457]
自動音声認識(ASR)と多言語音声翻訳(ST)を共同で行う新しいモデルアーキテクチャであるデュアルデコーダトランスフォーマを導入する。
我々のモデルはオリジナルのTransformerアーキテクチャに基づいているが、2つのデコーダで構成されており、それぞれが1つのタスク(ASRまたはST)を担っている。
論文 参考訳(メタデータ) (2020-11-02T04:59:50Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z) - Bi-Decoder Augmented Network for Neural Machine Translation [108.3931242633331]
本稿では,ニューラルマシン翻訳タスクのためのBi-Decoder Augmented Network (BiDAN)を提案する。
各デコーダは入力されたテキストの表現を対応する言語に変換するため、2つの目的語と共同でトレーニングすることで、共有エンコーダは言語に依存しない意味空間を生成することができる。
論文 参考訳(メタデータ) (2020-01-14T02:05:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。