論文の概要: Speech Translation with Foundation Models and Optimal Transport: UPC at
IWSLT23
- arxiv url: http://arxiv.org/abs/2306.01327v1
- Date: Fri, 2 Jun 2023 07:48:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 16:25:32.972403
- Title: Speech Translation with Foundation Models and Optimal Transport: UPC at
IWSLT23
- Title(参考訳): 基礎モデルによる音声翻訳と最適輸送: IWSLT23におけるUPC
- Authors: Ioannis Tsiamas, Gerard I. G\'allego, Jos\'e A. R. Fonollosa, Marta R.
Costa-juss\`a
- Abstract要約: 本稿では,UPC 機械翻訳グループの IWSLT 2023 オフライン音声翻訳タスクへの提出について述べる。
我々の音声翻訳システムは、音声(wav2vec 2.0)とテキスト(mBART50)の基礎モデルを利用する。
そこで本研究では,CTC と Optimal Transport を用いた音声とテキストエンコーダのシームズ事前学習ステップを導入し,音声表現をテキストモデルの空間に適応させる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper describes the submission of the UPC Machine Translation group to
the IWSLT 2023 Offline Speech Translation task. Our Speech Translation systems
utilize foundation models for speech (wav2vec 2.0) and text (mBART50). We
incorporate a Siamese pretraining step of the speech and text encoders with CTC
and Optimal Transport, to adapt the speech representations to the space of the
text model, thus maximizing transfer learning from MT. After this pretraining,
we fine-tune our system end-to-end on ST, with Cross Entropy and Knowledge
Distillation. Apart from the available ST corpora, we create synthetic data
with SegAugment to better adapt our models to the custom segmentations of the
IWSLT test sets. Our best single model obtains 31.2 BLEU points on MuST-C
tst-COMMON, 29.8 points on IWLST.tst2020 and 33.4 points on the newly released
IWSLT.ACLdev2023.
- Abstract(参考訳): 本稿では,UPC 機械翻訳グループの IWSLT 2023 オフライン音声翻訳タスクへの提出について述べる。
音声翻訳システムは,音声の基礎モデル(wav2vec 2.0)とテキストモデル(mbart50)を用いる。
我々は,CTC と Optimal Transport を用いた音声とテキストエンコーダのシームズ事前学習ステップを導入し,テキストモデルの空間に音声表現を適応させることにより,MT からの伝達学習を最大化する。
利用可能なSTコーパスとは別に、SegAugmentを使って合成データを作成し、IWSLTテストセットのカスタムセグメンテーションにモデルを適応させる。
ベストシングルモデルは MuST-C tst-COMMON で 31.2 BLEU 点, IWLST.tst 2020 で 29.8 点, IWSLT.ACLdev2023 で 33.4 点を得る。
関連論文リスト
- CMU's IWSLT 2024 Simultaneous Speech Translation System [80.15755988907506]
本稿では,CMU による IWSLT 2024 Simultaneous Speech Translation (SST) タスクへの提案について述べる。
本システムでは,WavLM音声エンコーダ,モダリティアダプタ,Llama2-7B-Baseモデルをデコーダとして統合する。
論文 参考訳(メタデータ) (2024-08-14T10:44:51Z) - NAIST Simultaneous Speech Translation System for IWSLT 2024 [18.77311658086372]
本稿では,IWSLT 2024評価キャンペーンの同時進行に対するNAISTの提出について述べる。
We developed a multilingual end-to-end speech-to-text translation model with two-trained language model, HuBERT and mBART。
私たちはこのモデルを、ローカルアグリーメント(LA)とAlignAttという2つのデコードポリシでトレーニングしました。
音声から音声への変換法は,上述した音声からテキストへの変換モデルのカスケードであり,TTSモジュールをインクリメンタルに生成する。
論文 参考訳(メタデータ) (2024-06-30T20:41:02Z) - Can We Achieve High-quality Direct Speech-to-Speech Translation without Parallel Speech Data? [49.42189569058647]
2パス直接音声音声変換(S2ST)モデルは、タスクを音声音声翻訳(S2TT)とテキスト音声翻訳(TTS)に分解する
本稿では,事前学習した任意のS2TTおよびTSモデルを直接S2STモデルにシームレスに統合できるComSpeechという複合S2STモデルを提案する。
また,S2TTとTSデータのみを利用した新しいトレーニング手法ComSpeech-ZSを提案する。
論文 参考訳(メタデータ) (2024-06-11T14:17:12Z) - KIT's Multilingual Speech Translation System for IWSLT 2023 [58.5152569458259]
IWSLT 2023の多言語トラックに対する音声翻訳システムについて述べる。
このタスクは、様々な量のリソースを持つ10の言語に翻訳する必要がある。
我々のケースド音声システムは、科学的な話の翻訳において、エンドツーエンドの音声よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-06-08T16:13:20Z) - Textless Speech-to-Speech Translation With Limited Parallel Data [51.3588490789084]
PFBはテキストレスのS2STモデルをトレーニングするためのフレームワークで、数十時間の並列音声データしか必要としない。
3つのドメインで英語、ドイツ語、マラティー語、英語の翻訳をトレーニングし、評価する。
論文 参考訳(メタデータ) (2023-05-24T17:59:05Z) - BJTU-WeChat's Systems for the WMT22 Chat Translation Task [66.81525961469494]
本稿では,WMT'22チャット翻訳タスクに対して,北京地東大学とWeChat AIを共同で提案する。
Transformerに基づいて、いくつかの有効な変種を適用します。
本システムでは,0.810と0.946のCOMETスコアを達成している。
論文 参考訳(メタデータ) (2022-11-28T02:35:04Z) - The YiTrans End-to-End Speech Translation System for IWSLT 2022 Offline
Shared Task [92.5087402621697]
本稿では,IWSLT 2022オフラインタスクに対するエンドツーエンドYiTrans音声翻訳システムの提案について述べる。
YiTransシステムは、大規模な訓練済みエンコーダデコーダモデル上に構築されている。
最終提出は自動評価基準でまず英語・ドイツ語・英語・中国語のエンド・ツー・エンド・システムにランク付けする。
論文 参考訳(メタデータ) (2022-06-12T16:13:01Z) - The HW-TSC's Offline Speech Translation Systems for IWSLT 2021
Evaluation [22.617563646374602]
本稿では,IWSLT-2021オフライン音声翻訳タスクの取り組みについて述べる。
本システムは,話者ダイアリゼーションモジュール,音声認識モジュール(ASR)モジュール,機械翻訳モジュール(MT)モジュールなど,カスケード形式で構築された。
本手法は2021年のテストセットで24.6 BLEUのスコアを得る。
論文 参考訳(メタデータ) (2021-08-09T07:28:04Z) - The NiuTrans End-to-End Speech Translation System for IWSLT 2021 Offline
Task [23.008938777422767]
本稿では,IWSLT 2021オフラインタスクに対して,NuTransのエンドツーエンド音声翻訳システムを提案する。
我々はTransformerベースのモデルアーキテクチャを使用し、Conformer、相対位置符号化、スタックされた音響およびテキスト符号化により拡張する。
我々は MuST-C En-De テストセット上で 33.84 BLEU 点を達成する。
論文 参考訳(メタデータ) (2021-07-06T07:45:23Z) - UPC's Speech Translation System for IWSLT 2021 [2.099922236065961]
本稿では,UPC 機械翻訳グループによる IWSLT 2021 オフライン音声翻訳タスクの提出について述べる。
タスクは、tedトークから抽出された英語の音声録音をドイツ語のテキストに翻訳できるシステムを構築することにある。
提案方式は,エンコーダとデコーダ間の結合モジュールと事前学習モデルを組み合わせた音声翻訳システムである。
論文 参考訳(メタデータ) (2021-05-10T17:04:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。