Fugu-MT 論文翻訳(概要): ESPnet-ST IWSLT 2021 Offline Speech Translation System

論文の概要: ESPnet-ST IWSLT 2021 Offline Speech Translation System

arxiv url: http://arxiv.org/abs/2107.00636v1
Date: Thu, 1 Jul 2021 17:49:43 GMT
ステータス: 翻訳完了
システム内更新日: 2021-07-02 13:37:17.002060
Title: ESPnet-ST IWSLT 2021 Offline Speech Translation System
Title（参考訳）: ESPnet-ST IWSLT 2021オフライン音声翻訳システム
Authors: Hirofumi Inaguma, Brian Yan, Siddharth Dalmia, Pengcheng Gu, Jiatong Shi, Kevin Duh, Shinji Watanabe
Abstract要約: 本稿では,ESPnet-STグループによる音声翻訳トラックにおけるIWSLT 2021の提出について述べる。今年は、データ、アーキテクチャ、オーディオセグメンテーションのトレーニングにさまざまな取り組みを行いました。私たちの最高のE2Eシステムは、すべてのテクニックをモデルアンサンブルと組み合わせ、31.4BLEUを達成しました。
参考スコア（独自算出の注目度）: 56.83606198051871
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper describes the ESPnet-ST group's IWSLT 2021 submission in the offline speech translation track. This year we made various efforts on training data, architecture, and audio segmentation. On the data side, we investigated sequence-level knowledge distillation (SeqKD) for end-to-end (E2E) speech translation. Specifically, we used multi-referenced SeqKD from multiple teachers trained on different amounts of bitext. On the architecture side, we adopted the Conformer encoder and the Multi-Decoder architecture, which equips dedicated decoders for speech recognition and translation tasks in a unified encoder-decoder model and enables search in both source and target language spaces during inference. We also significantly improved audio segmentation by using the pyannote.audio toolkit and merging multiple short segments for long context modeling. Experimental evaluations showed that each of them contributed to large improvements in translation performance. Our best E2E system combined all the above techniques with model ensembling and achieved 31.4 BLEU on the 2-ref of tst2021 and 21.2 BLEU and 19.3 BLEU on the two single references of tst2021.
Abstract（参考訳）: 本稿では,ESPnet-STグループによる音声翻訳トラックにおけるIWSLT 2021の提出について述べる。今年は、データ、アーキテクチャ、オーディオセグメンテーションのトレーニングにさまざまな取り組みを行いました。データ側では,エンドツーエンド(E2E)音声翻訳のためのシーケンスレベルの知識蒸留(SeqKD)について検討した。具体的には,複数の教師から多量のバイテキストで学習したseqkdを用いた。アーキテクチャ面では、ConformerエンコーダとMulti-Decoderアーキテクチャを採用し、音声認識および翻訳タスク専用のデコーダを統一エンコーダデコーダモデルで装備し、推論中にソース空間とターゲット言語空間の検索を可能にする。また, pyannote.audio ツールキットと複数の短いセグメントをマージすることで, 音声のセグメンテーションを大幅に改善した。実験の結果,それぞれが翻訳性能を大幅に向上させた。 tst2021と21.2 BLEUで31.4 BLEU、tst2021の2つの単一の参照で19.3 BLEUを達成した。

関連論文リスト

Joint Training And Decoding for Multilingual End-to-End Simultaneous Speech Translation [43.53370615449918]
エンドツーエンド音声翻訳(ST)に関する最近の研究は,複数言語間STとエンドツーエンド同時STの探索を円滑に進めている。実シナリオにおけるアプリケーションに近い一対多の多言語設定におけるエンドツーエンドの同時音声翻訳について検討する。
論文参考訳（メタデータ） (2025-03-14T04:45:46Z)
KIT's Multilingual Speech Translation System for IWSLT 2023 [58.5152569458259]
IWSLT 2023の多言語トラックに対する音声翻訳システムについて述べる。このタスクは、様々な量のリソースを持つ10の言語に翻訳する必要がある。我々のケースド音声システムは、科学的な話の翻訳において、エンドツーエンドの音声よりも大幅に優れています。
論文参考訳（メタデータ） (2023-06-08T16:13:20Z)
Improved Cross-Lingual Transfer Learning For Automatic Speech Translation [18.97234151624098]
エンコーダ-デコーダシーケンス-シーケンス変換モデルのエンコーダをSAMU-XLS-Rで初期化することにより,言語間タスクの知識伝達を大幅に改善することを示す。提案手法の有効性を,CoVoST-2とEuroparlという2つの一般的なデータセットに示す。
論文参考訳（メタデータ） (2023-06-01T15:19:06Z)
The YiTrans End-to-End Speech Translation System for IWSLT 2022 Offline Shared Task [92.5087402621697]
本稿では,IWSLT 2022オフラインタスクに対するエンドツーエンドYiTrans音声翻訳システムの提案について述べる。 YiTransシステムは、大規模な訓練済みエンコーダデコーダモデル上に構築されている。最終提出は自動評価基準でまず英語・ドイツ語・英語・中国語のエンド・ツー・エンド・システムにランク付けする。
論文参考訳（メタデータ） (2022-06-12T16:13:01Z)
The NiuTrans End-to-End Speech Translation System for IWSLT 2021 Offline Task [23.008938777422767]
本稿では,IWSLT 2021オフラインタスクに対して,NuTransのエンドツーエンド音声翻訳システムを提案する。我々はTransformerベースのモデルアーキテクチャを使用し、Conformer、相対位置符号化、スタックされた音響およびテキスト符号化により拡張する。我々は MuST-C En-De テストセット上で 33.84 BLEU 点を達成する。
論文参考訳（メタデータ） (2021-07-06T07:45:23Z)
Multilingual Speech Translation with Unified Transformer: Huawei Noah's Ark Lab at IWSLT 2021 [33.876412404781846]
本稿では,Huawei Noah の Ark Lab から IWSLT 2021 Speech Translation (MultiST) タスクに送信されたシステムについて述べる。我々は、MultiSTモデルに統一トランスフォーマーアーキテクチャを使用し、異なるモダリティからのデータを活用してモデルの能力を高める。マルチタスク学習やタスクレベルのカリキュラム学習,データ拡張など,パフォーマンス向上のために,いくつかのトレーニング手法を適用した。
論文参考訳（メタデータ） (2021-06-01T02:50:49Z)
UPC's Speech Translation System for IWSLT 2021 [2.099922236065961]
本稿では,UPC 機械翻訳グループによる IWSLT 2021 オフライン音声翻訳タスクの提出について述べる。タスクは、tedトークから抽出された英語の音声録音をドイツ語のテキストに翻訳できるシステムを構築することにある。提案方式は,エンコーダとデコーダ間の結合モジュールと事前学習モデルを組み合わせた音声翻訳システムである。
論文参考訳（メタデータ） (2021-05-10T17:04:11Z)
Dual-decoder Transformer for Joint Automatic Speech Recognition and Multilingual Speech Translation [71.54816893482457]
自動音声認識(ASR)と多言語音声翻訳(ST)を共同で行う新しいモデルアーキテクチャであるデュアルデコーダトランスフォーマを導入する。我々のモデルはオリジナルのTransformerアーキテクチャに基づいているが、2つのデコーダで構成されており、それぞれが1つのタスク(ASRまたはST)を担っている。
論文参考訳（メタデータ） (2020-11-02T04:59:50Z)
Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。 AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文参考訳（メタデータ） (2020-10-15T18:34:13Z)
Bi-Decoder Augmented Network for Neural Machine Translation [108.3931242633331]
本稿では,ニューラルマシン翻訳タスクのためのBi-Decoder Augmented Network (BiDAN)を提案する。各デコーダは入力されたテキストの表現を対応する言語に変換するため、2つの目的語と共同でトレーニングすることで、共有エンコーダは言語に依存しない意味空間を生成することができる。
論文参考訳（メタデータ） (2020-01-14T02:05:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。