論文の概要: UPC's Speech Translation System for IWSLT 2021
- arxiv url: http://arxiv.org/abs/2105.04512v1
- Date: Mon, 10 May 2021 17:04:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-11 15:00:58.195525
- Title: UPC's Speech Translation System for IWSLT 2021
- Title(参考訳): IWSLT 2021のためのUPC音声翻訳システム
- Authors: Gerard I. G\'allego, Ioannis Tsiamas, Carlos Escolano, Jos\'e A. R.
Fonollosa, Marta R. Costa-juss\`a
- Abstract要約: 本稿では,UPC 機械翻訳グループによる IWSLT 2021 オフライン音声翻訳タスクの提出について述べる。
タスクは、tedトークから抽出された英語の音声録音をドイツ語のテキストに翻訳できるシステムを構築することにある。
提案方式は,エンコーダとデコーダ間の結合モジュールと事前学習モデルを組み合わせた音声翻訳システムである。
- 参考スコア(独自算出の注目度): 2.099922236065961
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper describes the submission to the IWSLT 2021 offline speech
translation task by the UPC Machine Translation group. The task consists of
building a system capable of translating English audio recordings extracted
from TED talks into German text. Submitted systems can be either cascade or
end-to-end and use a custom or given segmentation. Our submission is an
end-to-end speech translation system, which combines pre-trained models
(Wav2Vec 2.0 and mBART) with coupling modules between the encoder and decoder,
and uses an efficient fine-tuning technique, which trains only 20% of its total
parameters. We show that adding an Adapter to the system and pre-training it,
can increase the convergence speed and the final result, with which we achieve
a BLEU score of 27.3 on the MuST-C test set. Our final model is an ensemble
that obtains 28.22 BLEU score on the same set. Our submission also uses a
custom segmentation algorithm that employs pre-trained Wav2Vec 2.0 for
identifying periods of untranscribable text and can bring improvements of 2.5
to 3 BLEU score on the IWSLT 2019 test set, as compared to the result with the
given segmentation.
- Abstract(参考訳): 本稿では,UPC 機械翻訳グループによる IWSLT 2021 オフライン音声翻訳タスクの提出について述べる。
タスクは、tedトークから抽出された英語の音声録音をドイツ語のテキストに翻訳できるシステムを構築することにある。
送信されたシステムはカスケードまたはエンドツーエンドで、カスタムまたは所定のセグメンテーションを使用することができる。
提案手法は,事前学習したモデル(Wav2Vec 2.0とmBART)とエンコーダとデコーダの結合モジュールを組み合わせたエンドツーエンド音声翻訳システムである。
システムにアダプタを追加して事前学習することにより、収束速度と最終的な結果が向上し、 MuST-C テストセットで BLEU スコアが 27.3 となることを示す。
最後のモデルは、同じセットで28.22 BLEUスコアを得るアンサンブルです。
また,本提案では,事前学習したwav2vec 2.0を用いたセグメンテーションアルゴリズムも採用し,iwslt 2019テストセットにおいて,セグメンテーション結果と比較して2.5~3 bleuスコアの改善が期待できる。
関連論文リスト
- CMU's IWSLT 2024 Simultaneous Speech Translation System [80.15755988907506]
本稿では,CMU による IWSLT 2024 Simultaneous Speech Translation (SST) タスクへの提案について述べる。
本システムでは,WavLM音声エンコーダ,モダリティアダプタ,Llama2-7B-Baseモデルをデコーダとして統合する。
論文 参考訳(メタデータ) (2024-08-14T10:44:51Z) - KIT's Multilingual Speech Translation System for IWSLT 2023 [58.5152569458259]
IWSLT 2023の多言語トラックに対する音声翻訳システムについて述べる。
このタスクは、様々な量のリソースを持つ10の言語に翻訳する必要がある。
我々のケースド音声システムは、科学的な話の翻訳において、エンドツーエンドの音声よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-06-08T16:13:20Z) - Speech Translation with Foundation Models and Optimal Transport: UPC at
IWSLT23 [0.0]
本稿では,UPC 機械翻訳グループの IWSLT 2023 オフライン音声翻訳タスクへの提出について述べる。
我々の音声翻訳システムは、音声(wav2vec 2.0)とテキスト(mBART50)の基礎モデルを利用する。
そこで本研究では,CTC と Optimal Transport を用いた音声とテキストエンコーダのシームズ事前学習ステップを導入し,音声表現をテキストモデルの空間に適応させる。
論文 参考訳(メタデータ) (2023-06-02T07:48:37Z) - ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text
Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。
提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:42:15Z) - BJTU-WeChat's Systems for the WMT22 Chat Translation Task [66.81525961469494]
本稿では,WMT'22チャット翻訳タスクに対して,北京地東大学とWeChat AIを共同で提案する。
Transformerに基づいて、いくつかの有効な変種を適用します。
本システムでは,0.810と0.946のCOMETスコアを達成している。
論文 参考訳(メタデータ) (2022-11-28T02:35:04Z) - The YiTrans End-to-End Speech Translation System for IWSLT 2022 Offline
Shared Task [92.5087402621697]
本稿では,IWSLT 2022オフラインタスクに対するエンドツーエンドYiTrans音声翻訳システムの提案について述べる。
YiTransシステムは、大規模な訓練済みエンコーダデコーダモデル上に構築されている。
最終提出は自動評価基準でまず英語・ドイツ語・英語・中国語のエンド・ツー・エンド・システムにランク付けする。
論文 参考訳(メタデータ) (2022-06-12T16:13:01Z) - The NiuTrans End-to-End Speech Translation System for IWSLT 2021 Offline
Task [23.008938777422767]
本稿では,IWSLT 2021オフラインタスクに対して,NuTransのエンドツーエンド音声翻訳システムを提案する。
我々はTransformerベースのモデルアーキテクチャを使用し、Conformer、相対位置符号化、スタックされた音響およびテキスト符号化により拡張する。
我々は MuST-C En-De テストセット上で 33.84 BLEU 点を達成する。
論文 参考訳(メタデータ) (2021-07-06T07:45:23Z) - ESPnet-ST IWSLT 2021 Offline Speech Translation System [56.83606198051871]
本稿では,ESPnet-STグループによる音声翻訳トラックにおけるIWSLT 2021の提出について述べる。
今年は、データ、アーキテクチャ、オーディオセグメンテーションのトレーニングにさまざまな取り組みを行いました。
私たちの最高のE2Eシステムは、すべてのテクニックをモデルアンサンブルと組み合わせ、31.4BLEUを達成しました。
論文 参考訳(メタデータ) (2021-07-01T17:49:43Z) - The Volctrans Neural Speech Translation System for IWSLT 2021 [26.058205594318405]
本稿では,Volctrans チームが IWSLT 2021 に提出したシステムについて述べる。
オフライン音声翻訳では,ベンチマークよりも8.1 BLEUの改善を実現している。
テキスト間同時翻訳では,wait-kモデルを最適化する最善の方法を検討する。
論文 参考訳(メタデータ) (2021-05-16T00:11:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。