論文の概要: Speech Translation with Foundation Models and Optimal Transport: UPC at
IWSLT23
- arxiv url: http://arxiv.org/abs/2306.01327v1
- Date: Fri, 2 Jun 2023 07:48:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 16:25:32.972403
- Title: Speech Translation with Foundation Models and Optimal Transport: UPC at
IWSLT23
- Title(参考訳): 基礎モデルによる音声翻訳と最適輸送: IWSLT23におけるUPC
- Authors: Ioannis Tsiamas, Gerard I. G\'allego, Jos\'e A. R. Fonollosa, Marta R.
Costa-juss\`a
- Abstract要約: 本稿では,UPC 機械翻訳グループの IWSLT 2023 オフライン音声翻訳タスクへの提出について述べる。
我々の音声翻訳システムは、音声(wav2vec 2.0)とテキスト(mBART50)の基礎モデルを利用する。
そこで本研究では,CTC と Optimal Transport を用いた音声とテキストエンコーダのシームズ事前学習ステップを導入し,音声表現をテキストモデルの空間に適応させる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper describes the submission of the UPC Machine Translation group to
the IWSLT 2023 Offline Speech Translation task. Our Speech Translation systems
utilize foundation models for speech (wav2vec 2.0) and text (mBART50). We
incorporate a Siamese pretraining step of the speech and text encoders with CTC
and Optimal Transport, to adapt the speech representations to the space of the
text model, thus maximizing transfer learning from MT. After this pretraining,
we fine-tune our system end-to-end on ST, with Cross Entropy and Knowledge
Distillation. Apart from the available ST corpora, we create synthetic data
with SegAugment to better adapt our models to the custom segmentations of the
IWSLT test sets. Our best single model obtains 31.2 BLEU points on MuST-C
tst-COMMON, 29.8 points on IWLST.tst2020 and 33.4 points on the newly released
IWSLT.ACLdev2023.
- Abstract(参考訳): 本稿では,UPC 機械翻訳グループの IWSLT 2023 オフライン音声翻訳タスクへの提出について述べる。
音声翻訳システムは,音声の基礎モデル(wav2vec 2.0)とテキストモデル(mbart50)を用いる。
我々は,CTC と Optimal Transport を用いた音声とテキストエンコーダのシームズ事前学習ステップを導入し,テキストモデルの空間に音声表現を適応させることにより,MT からの伝達学習を最大化する。
利用可能なSTコーパスとは別に、SegAugmentを使って合成データを作成し、IWSLTテストセットのカスタムセグメンテーションにモデルを適応させる。
ベストシングルモデルは MuST-C tst-COMMON で 31.2 BLEU 点, IWLST.tst 2020 で 29.8 点, IWSLT.ACLdev2023 で 33.4 点を得る。
関連論文リスト
- KIT's Multilingual Speech Translation System for IWSLT 2023 [58.5152569458259]
IWSLT 2023の多言語トラックに対する音声翻訳システムについて述べる。
このタスクは、様々な量のリソースを持つ10の言語に翻訳する必要がある。
我々のケースド音声システムは、科学的な話の翻訳において、エンドツーエンドの音声よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-06-08T16:13:20Z) - Textless Low-Resource Speech-to-Speech Translation With Unit Language
Models [56.1058530241461]
本稿では,テキストレス低音源音声合成システム(S2ST)を学習するための新しいフレームワークを提案する。
我々はS2STを単位から単位へのセク2セク翻訳タスクとして微調整し、大規模単言語音声データに対する事前学習から始める。
3つのドメインで英語、ドイツ語、マラティー語、英語の翻訳をトレーニングし、評価する。
論文 参考訳(メタデータ) (2023-05-24T17:59:05Z) - M3ST: Mix at Three Levels for Speech Translation [66.71994367650461]
本稿では,M3ST法を3段階に分けて提案し,拡張学習コーパスの多様性を高める。
ファインチューニングの第1段階では、単語レベル、文レベル、フレームレベルを含む3段階のトレーニングコーパスを混合し、モデル全体を混合データで微調整する。
MuST-C音声翻訳ベンチマークと分析実験により、M3STは現在の強いベースラインより優れ、平均的なBLEU29.9の8方向の最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2022-12-07T14:22:00Z) - Tackling Low-Resourced Sign Language Translation: UPC at WMT-SLT 22 [4.382973957294345]
本稿では,機械翻訳ワークショップ2022手話翻訳タスクのためにカタルーニャ大学ポリテシカ校で開発されたシステムについて述べる。
本研究では、Fairseqモデリングツールキットで実装されたTransformerモデルを用いる。
我々は,語彙サイズ,データ拡張手法,ENIX-14Tデータセットを用いた事前学習実験を行った。
論文 参考訳(メタデータ) (2022-12-02T12:42:24Z) - BJTU-WeChat's Systems for the WMT22 Chat Translation Task [66.81525961469494]
本稿では,WMT'22チャット翻訳タスクに対して,北京地東大学とWeChat AIを共同で提案する。
Transformerに基づいて、いくつかの有効な変種を適用します。
本システムでは,0.810と0.946のCOMETスコアを達成している。
論文 参考訳(メタデータ) (2022-11-28T02:35:04Z) - The YiTrans End-to-End Speech Translation System for IWSLT 2022 Offline
Shared Task [92.5087402621697]
本稿では,IWSLT 2022オフラインタスクに対するエンドツーエンドYiTrans音声翻訳システムの提案について述べる。
YiTransシステムは、大規模な訓練済みエンコーダデコーダモデル上に構築されている。
最終提出は自動評価基準でまず英語・ドイツ語・英語・中国語のエンド・ツー・エンド・システムにランク付けする。
論文 参考訳(メタデータ) (2022-06-12T16:13:01Z) - ON-TRAC Consortium Systems for the IWSLT 2022 Dialect and Low-resource
Speech Translation Tasks [8.651248939672769]
本稿では,IWSLT 2022の評価キャンペーンにおける2つの課題トラックに対して開発されたON-TRACコンソーシアム翻訳システムについて述べる。
ASRの大規模微調整wav2vec 2.0モデルを利用するカスケードモデルと比較した。
この結果から,小型のターゲットデータを用いた自己教師型モデルの方が,大規模な市販モデルに比べて低リソースのSTファインチューニングに有効であることが示唆された。
論文 参考訳(メタデータ) (2022-05-04T10:36:57Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - The HW-TSC's Offline Speech Translation Systems for IWSLT 2021
Evaluation [22.617563646374602]
本稿では,IWSLT-2021オフライン音声翻訳タスクの取り組みについて述べる。
本システムは,話者ダイアリゼーションモジュール,音声認識モジュール(ASR)モジュール,機械翻訳モジュール(MT)モジュールなど,カスケード形式で構築された。
本手法は2021年のテストセットで24.6 BLEUのスコアを得る。
論文 参考訳(メタデータ) (2021-08-09T07:28:04Z) - The NiuTrans End-to-End Speech Translation System for IWSLT 2021 Offline
Task [23.008938777422767]
本稿では,IWSLT 2021オフラインタスクに対して,NuTransのエンドツーエンド音声翻訳システムを提案する。
我々はTransformerベースのモデルアーキテクチャを使用し、Conformer、相対位置符号化、スタックされた音響およびテキスト符号化により拡張する。
我々は MuST-C En-De テストセット上で 33.84 BLEU 点を達成する。
論文 参考訳(メタデータ) (2021-07-06T07:45:23Z) - UPC's Speech Translation System for IWSLT 2021 [2.099922236065961]
本稿では,UPC 機械翻訳グループによる IWSLT 2021 オフライン音声翻訳タスクの提出について述べる。
タスクは、tedトークから抽出された英語の音声録音をドイツ語のテキストに翻訳できるシステムを構築することにある。
提案方式は,エンコーダとデコーダ間の結合モジュールと事前学習モデルを組み合わせた音声翻訳システムである。
論文 参考訳(メタデータ) (2021-05-10T17:04:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。