論文の概要: RosettaSpeech: Zero-Shot Speech-to-Speech Translation from Monolingual Data
- arxiv url: http://arxiv.org/abs/2511.20974v1
- Date: Wed, 26 Nov 2025 02:02:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:58.92056
- Title: RosettaSpeech: Zero-Shot Speech-to-Speech Translation from Monolingual Data
- Title(参考訳): RosettaSpeech:モノリンガルデータからのゼロショット音声音声合成
- Authors: Zhisheng Zheng, Xiaohang Sun, Tuan Dinh, Abhishek Yanamandra, Abhinav Jain, Zhu Liu, Sunil Hadap, Vimal Bhat, Manoj Aggarwal, Gerard Medioni, David Harwath,
- Abstract要約: 本稿では,ゼロショット音声音声翻訳(S2ST)のための新規かつ簡易なフレームワークであるRosettaSpeechを紹介する。
本手法はテキストベースのNMTモデルに固有の言語知識を活用するが,パラレル音声対の必要性を極端に排除する。
我々のモデルは、トレーニング中にテキストを中間ブリッジとして使用するが、推論時に直接エンドツーエンドの音声合成モデルとして機能する。
- 参考スコア(独自算出の注目度): 30.27234062544891
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The scarcity of parallel speech corpora critically hampers speech-to-speech translation (S2ST), often forcing reliance on complex, multi-stage pipelines. This paper introduces RosettaSpeech, a novel and simplified framework for zero-shot S2ST that is trained on monolingual speech-text data augmented by machine translation supervision. While our method leverages the linguistic knowledge inherent in text-based NMT models, it strictly eliminates the need for parallel speech-to-speech pairs. Our model uniquely uses text as an intermediate bridge during training but functions as a direct, end-to-end speech-to-speech model at inference. This streamlined approach achieves state-of-the-art results on standard benchmarks. For instance, on the CVSS-C test set, RosettaSpeech outperforms leading systems, achieving an ASR-BLEU score of 25.17 for German-to-English and 29.86 for Spanish-to-English-relative gains of over 27% and 14%, respectively. Furthermore, we demonstrate that a single model can deliver strong many-to-one translation performance (FR/ES/DE -> EN). We also provide a foundational analysis of how training data scaling impacts model performance. By prioritizing reliance on abundant parallel text rather than difficult-to-acquire parallel speech, RosettaSpeech offers a scalable path to creating high-quality, speaker-preserving S2ST for a much broader array of languages.
- Abstract(参考訳): パラレル音声コーパスの欠如は音声から音声への翻訳(S2ST)を著しく妨げ、複雑な多段階パイプラインへの依存を強要する。
本稿では,ゼロショットS2STのための新規かつ簡易なフレームワークであるRosettaSpeechについて紹介する。
本手法はテキストベースのNMTモデルに固有の言語知識を活用するが,パラレル音声対の必要性を極端に排除する。
我々のモデルは、トレーニング中にテキストを中間ブリッジとして使用するが、推論時に直接エンドツーエンドの音声合成モデルとして機能する。
この合理化されたアプローチは、標準ベンチマークにおける最先端の結果を達成する。
例えば、CVSS-Cテストセットでは、RosettaSpeechは先進的なシステムより優れており、ASR-BLEUスコアはドイツ語で25.17点、スペイン語で29.86点、スペイン語で27%以上、スペイン語で14%以上となっている。
さらに、1つのモデルが強い多対一変換性能(FR/ES/DE -> EN)を提供できることを示す。
また、トレーニングデータスケーリングがモデルパフォーマンスに与える影響に関する基礎的な分析も提供します。
RosettaSpeechは、難易度の高いパラレルスピーチではなく、豊富なパラレルテキストへの依存を優先することによって、より広範な言語に対して高品質で話者保存のS2STを作成するためのスケーラブルなパスを提供する。
関連論文リスト
- Towards Efficient Speech-Text Jointly Decoding within One Speech Language Model [76.06585781346601]
音声言語モデル(Speech LMs)は、単一のモデル内でエンドツーエンドの音声テキストモデリングを可能にする。
音声テキストの共同復号パラダイムの選択は、性能、効率、アライメント品質において重要な役割を担っている。
論文 参考訳(メタデータ) (2025-06-04T23:53:49Z) - Textless Speech-to-Speech Translation With Limited Parallel Data [51.3588490789084]
PFBはテキストレスのS2STモデルをトレーニングするためのフレームワークで、数十時間の並列音声データしか必要としない。
3つのドメインで英語、ドイツ語、マラティー語、英語の翻訳をトレーニングし、評価する。
論文 参考訳(メタデータ) (2023-05-24T17:59:05Z) - ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text
Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。
提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:42:15Z) - Joint Pre-Training with Speech and Bilingual Text for Direct Speech to
Speech Translation [94.80029087828888]
直接音声音声翻訳 (S2ST) は, カスケードされたS2STと比較して, 優れた研究課題である。
直接S2STは、ソース言語の音声からターゲット言語の音声へのコーパスが非常に稀であるため、データ不足の問題に悩まされる。
本稿では,音声から音声への直接翻訳タスクのための音声とバイリンガルのテキストデータとを事前学習したSpeech2Sモデルを提案する。
論文 参考訳(メタデータ) (2022-10-31T02:55:51Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。