論文の概要: CVSS Corpus and Massively Multilingual Speech-to-Speech Translation
- arxiv url: http://arxiv.org/abs/2201.03713v1
- Date: Tue, 11 Jan 2022 00:27:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-12 14:42:28.079965
- Title: CVSS Corpus and Massively Multilingual Speech-to-Speech Translation
- Title(参考訳): CVSSコーパスと多言語音声合成
- Authors: Ye Jia, Michelle Tadmor Ramanovich, Quan Wang, Heiga Zen
- Abstract要約: CVSSは,21言語から英語への文レベル並列S2ST対をカバーする,多言語から英語への多言語翻訳(S2ST)コーパスである。
CVSSはコモンボイス音声コーパスとCoVoST2音声テキスト翻訳(ST)コーパスから派生したもので、CoVoST2からの翻訳テキストを最先端のTSSシステムを用いて音声に合成する。
- 参考スコア(独自算出の注目度): 12.728936993766292
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce CVSS, a massively multilingual-to-English speech-to-speech
translation (S2ST) corpus, covering sentence-level parallel S2ST pairs from 21
languages into English. CVSS is derived from the Common Voice speech corpus and
the CoVoST 2 speech-to-text translation (ST) corpus, by synthesizing the
translation text from CoVoST 2 into speech using state-of-the-art TTS systems.
Two versions of translation speeches are provided: 1) CVSS-C: All the
translation speeches are in a single high-quality canonical voice; 2) CVSS-T:
The translation speeches are in voices transferred from the corresponding
source speeches. In addition, CVSS provides normalized translation text which
matches the pronunciation in the translation speech. On each version of CVSS,
we built baseline multilingual direct S2ST models and cascade S2ST models,
verifying the effectiveness of the corpus. To build strong cascade S2ST
baselines, we trained an ST model on CoVoST 2, which outperforms the previous
state-of-the-art trained on the corpus without extra data by 5.8 BLEU.
Nevertheless, the performance of the direct S2ST models approaches the strong
cascade baselines when trained from scratch, and with only 0.1 or 0.7 BLEU
difference on ASR transcribed translation when initialized from matching ST
models.
- Abstract(参考訳): CVSSは,21言語から英語への文レベル並列S2ST対をカバーする,多言語から英語への多言語翻訳(S2ST)コーパスである。
CVSSはコモンボイス音声コーパスとCoVoST2音声テキスト翻訳(ST)コーパスから派生したもので、CoVoST2からの翻訳テキストを最先端のTSSシステムを用いて音声に合成する。
翻訳文には2つのバージョンがある。
1)CVSS-C:全ての翻訳音声は高品質の標準音声である。
2) CVSS-T: 翻訳音声は対応する音源から伝達される音声である。
さらに、CVSSは、翻訳音声の発音と一致する正規化翻訳テキストを提供する。
CVSSの各バージョンにおいて,ベースライン多言語直接S2STモデルとカスケードS2STモデルを構築し,コーパスの有効性を検証した。
強力なカスケードS2STベースラインを構築するために、我々はCoVoST 2上でSTモデルを訓練した。
それでも、直接S2STモデルの性能は、スクラッチからトレーニングされたときの強いカスケードベースラインに近づき、一致するSTモデルから初期化されるときのASR転写翻訳における0.1または0.7BLEU差のみである。
関連論文リスト
- CMU's IWSLT 2024 Simultaneous Speech Translation System [80.15755988907506]
本稿では,CMU による IWSLT 2024 Simultaneous Speech Translation (SST) タスクへの提案について述べる。
本システムでは,WavLM音声エンコーダ,モダリティアダプタ,Llama2-7B-Baseモデルをデコーダとして統合する。
論文 参考訳(メタデータ) (2024-08-14T10:44:51Z) - Can We Achieve High-quality Direct Speech-to-Speech Translation without Parallel Speech Data? [49.42189569058647]
2パス直接音声音声変換(S2ST)モデルは、タスクを音声音声翻訳(S2TT)とテキスト音声翻訳(TTS)に分解する
本稿では,事前学習した任意のS2TTおよびTSモデルを直接S2STモデルにシームレスに統合できるComSpeechという複合S2STモデルを提案する。
また,S2TTとTSデータのみを利用した新しいトレーニング手法ComSpeech-ZSを提案する。
論文 参考訳(メタデータ) (2024-06-11T14:17:12Z) - Enhancing Speech-to-Speech Translation with Multiple TTS Targets [62.18395387305803]
直接S2STモデルに対する合成対象音声の変更の効果を解析する。
異なるTSシステムから複数のターゲットを持つS2STシステムを協調的に最適化するマルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-10T14:33:33Z) - Textless Direct Speech-to-Speech Translation with Discrete Speech
Representation [27.182170555234226]
本研究では,テキストの監督なしにエンドツーエンドの直接S2STモデルをトレーニングするための新しいモデルであるTextless Translatotronを提案する。
教師なし音声データで事前訓練された音声エンコーダを両方のモデルに使用すると、提案モデルはトランスラトトロン2とほぼ同等の翻訳品質が得られる。
論文 参考訳(メタデータ) (2022-10-31T19:48:38Z) - Joint Pre-Training with Speech and Bilingual Text for Direct Speech to
Speech Translation [94.80029087828888]
直接音声音声翻訳 (S2ST) は, カスケードされたS2STと比較して, 優れた研究課題である。
直接S2STは、ソース言語の音声からターゲット言語の音声へのコーパスが非常に稀であるため、データ不足の問題に悩まされる。
本稿では,音声から音声への直接翻訳タスクのための音声とバイリンガルのテキストデータとを事前学習したSpeech2Sモデルを提案する。
論文 参考訳(メタデータ) (2022-10-31T02:55:51Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。