論文の概要: Leveraging unsupervised and weakly-supervised data to improve direct
speech-to-speech translation
- arxiv url: http://arxiv.org/abs/2203.13339v1
- Date: Thu, 24 Mar 2022 21:06:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-28 12:36:22.481021
- Title: Leveraging unsupervised and weakly-supervised data to improve direct
speech-to-speech translation
- Title(参考訳): 教師なし・弱教師付きデータの活用による直接音声音声翻訳の改善
- Authors: Ye Jia, Yifan Ding, Ankur Bapna, Colin Cherry, Yu Zhang, Alexis
Conneau, Nobuyuki Morioka
- Abstract要約: 中間的なテキスト表現に依存しない音声音声翻訳(S2ST)は、急速に研究のフロンティアになりつつある。
近年の研究では、このような直接S2STシステムの性能が、同等のデータセットでトレーニングされた場合、従来のカスケードS2STシステムに近づいていることが示されている。
本研究では,トランスラトトロン2に基づく直接S2STの性能向上のために,より広く利用可能な教師なし・弱教師付き音声・テキストデータを活用するための複数のアプローチについて検討する。
- 参考スコア(独自算出の注目度): 32.24706553793383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end speech-to-speech translation (S2ST) without relying on
intermediate text representations is a rapidly emerging frontier of research.
Recent works have demonstrated that the performance of such direct S2ST systems
is approaching that of conventional cascade S2ST when trained on comparable
datasets. However, in practice, the performance of direct S2ST is bounded by
the availability of paired S2ST training data. In this work, we explore
multiple approaches for leveraging much more widely available unsupervised and
weakly-supervised speech and text data to improve the performance of direct
S2ST based on Translatotron 2. With our most effective approaches, the average
translation quality of direct S2ST on 21 language pairs on the CVSS-C corpus is
improved by +13.6 BLEU (or +113% relatively), as compared to the previous
state-of-the-art trained without additional data. The improvements on
low-resource language are even more significant (+398% relatively on average).
Our comparative studies suggest future research directions for S2ST and speech
representation learning.
- Abstract(参考訳): 中間的なテキスト表現に依存しないエンドツーエンドの音声対音声翻訳(s2st)は、急速に発展する研究のフロンティアである。
近年の研究では、このような直接S2STシステムの性能が、同等のデータセットで訓練された場合、従来のS2STシステムに近いことが示されている。
しかし、実際にはペアS2STトレーニングデータの入手により直接S2STの性能が制限される。
本研究では,トランスラトトロン2に基づく直接S2STの性能向上のために,より広く利用可能な教師なし・弱教師付き音声・テキストデータを活用するための複数のアプローチを検討する。
最も効果的なアプローチでは、CVSS-Cコーパス上の21の言語対に対するS2STの平均翻訳品質は、追加データなしでトレーニングされた以前の最先端技術と比較して+13.6BLEU(または+113%)改善される。
低リソース言語の改善はさらに重要である(平均的には+398%)。
本研究は,s2stと音声表現学習の今後の研究方向を示唆する。
関連論文リスト
- Can We Achieve High-quality Direct Speech-to-Speech Translation without Parallel Speech Data? [49.42189569058647]
2パス直接音声音声変換(S2ST)モデルは、タスクを音声音声翻訳(S2TT)とテキスト音声翻訳(TTS)に分解する
本稿では,事前学習した任意のS2TTおよびTSモデルを直接S2STモデルにシームレスに統合できるComSpeechという複合S2STモデルを提案する。
また,S2TTとTSデータのみを利用した新しいトレーニング手法ComSpeech-ZSを提案する。
論文 参考訳(メタデータ) (2024-06-11T14:17:12Z) - Prosody in Cascade and Direct Speech-to-Text Translation: a case study
on Korean Wh-Phrases [79.07111754406841]
本研究は,韻律が重要な役割を果たす発話を明瞭にするための直接S2TTシステムの能力を評価するために,コントラスト評価を用いることを提案する。
本結果は,カスケード翻訳モデルよりも直接翻訳システムの価値を明確に示すものである。
論文 参考訳(メタデータ) (2024-02-01T14:46:35Z) - Enhancing Speech-to-Speech Translation with Multiple TTS Targets [62.18395387305803]
直接S2STモデルに対する合成対象音声の変更の効果を解析する。
異なるTSシステムから複数のターゲットを持つS2STシステムを協調的に最適化するマルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-10T14:33:33Z) - Joint Pre-Training with Speech and Bilingual Text for Direct Speech to
Speech Translation [94.80029087828888]
直接音声音声翻訳 (S2ST) は, カスケードされたS2STと比較して, 優れた研究課題である。
直接S2STは、ソース言語の音声からターゲット言語の音声へのコーパスが非常に稀であるため、データ不足の問題に悩まされる。
本稿では,音声から音声への直接翻訳タスクのための音声とバイリンガルのテキストデータとを事前学習したSpeech2Sモデルを提案する。
論文 参考訳(メタデータ) (2022-10-31T02:55:51Z) - Improving Speech-to-Speech Translation Through Unlabeled Text [39.28273721043411]
直接音声音声変換(S2ST)は、翻訳パラダイムにおいて最も難しい問題の一つである。
そこで本稿では,S2STデータを生成するために,異なる言語からの大量の未ラベルテキストを効果的に活用する方法を提案する。
論文 参考訳(メタデータ) (2022-10-26T06:52:19Z) - Simple and Effective Unsupervised Speech Translation [68.25022245914363]
ラベル付きデータなしで音声翻訳システムを構築するための,シンプルで効果的な手法について検討する。
事前学習された音声モデルに対する教師なし領域適応手法を提案する。
実験により、教師なし音声からテキストへの翻訳は、それまでの教師なし状態よりも優れていたことが示されている。
論文 参考訳(メタデータ) (2022-10-18T22:26:13Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。