論文の概要: Improving Direct Persian-English Speech-to-Speech Translation with Discrete Units and Synthetic Parallel Data
- arxiv url: http://arxiv.org/abs/2511.12690v1
- Date: Sun, 16 Nov 2025 17:14:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.482203
- Title: Improving Direct Persian-English Speech-to-Speech Translation with Discrete Units and Synthetic Parallel Data
- Title(参考訳): 離散単位と合成並列データを用いたペルシャ・英語音声合成の改良
- Authors: Sina Rashidi, Hossein Sameti,
- Abstract要約: 直接音声音声変換(S2ST)モデルは、ソース言語とターゲット言語で大量の並列音声データを必要とする。
本稿では、ペルシャ語を英語に翻訳する直接S2STシステムと、ペルシャ・英語合成音声生成のためのパイプラインを提案する。
- 参考スコア(独自算出の注目度): 1.3607388598209322
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Direct speech-to-speech translation (S2ST), in which all components are trained jointly, is an attractive alternative to cascaded systems because it offers a simpler pipeline and lower inference latency. However, direct S2ST models require large amounts of parallel speech data in the source and target languages, which are rarely available for low-resource languages such as Persian. This paper presents a direct S2ST system for translating Persian speech into English speech, as well as a pipeline for synthetic parallel Persian-English speech generation. The model comprises three components: (1) a conformer-based encoder, initialized from self-supervised pre-training, maps source speech to high-level acoustic representations; (2) a causal transformer decoder with relative position multi-head attention translates these representations into discrete target speech units; (3) a unit-based neural vocoder generates waveforms from the predicted discrete units. To mitigate the data scarcity problem, we construct a new Persian-English parallel speech corpus by translating Persian speech transcriptions into English using a large language model and then synthesizing the corresponding English speech with a state-of-the-art zero-shot text-to-speech system. The resulting corpus increases the amount of available parallel speech by roughly a factor of six. On the Persian-English portion of the CVSS corpus, the proposed model achieves improvement of 4.6 ASR BLEU with the synthetic data over direct baselines. These results indicate that combining self-supervised pre-training, discrete speech units, and synthetic parallel data is effective for improving direct S2ST in low-resource language pairs such as Persian-English
- Abstract(参考訳): すべてのコンポーネントが共同で訓練される直接音声音声変換(S2ST)は、単純なパイプラインと低い推論レイテンシを提供するため、カスケードシステムの魅力的な代替手段である。
しかし、直接S2STモデルはソースやターゲット言語で大量の並列音声データを必要とするため、ペルシャ語のような低リソース言語ではめったに利用できない。
本稿では、ペルシャ語を英語に翻訳する直接S2STシステムと、ペルシャ・英語合成音声生成のためのパイプラインを提案する。
本モデルは,(1)自己教師付き事前学習から初期化したコンバータベースのエンコーダ,(2)相対的な位置のマルチヘッドアテンションを持つ因果変換器デコーダ,(3)単位ベースのニューラルボコーダが予測された離散単位から波形を生成する。
データ不足を緩和するために,ペルシャ語音声を大言語モデルを用いて英語に翻訳し,それに対応する英文音声を最先端のゼロショット音声合成システムで合成することにより,ペルシャ語並列音声コーパスを構築する。
得られたコーパスは、利用可能なパラレル音声の量を約6倍に増やす。
CVSSコーパスのペルシャ・イングリッシュ部分では,直接ベースライン上での合成データを用いて,提案モデルにより4.6 ASR BLEUの改善が達成されている。
これらの結果は,ペルシャ語や英語などの低リソース言語対における自己教師付き事前学習,離散音声単位,合成並列データの組み合わせが直接S2STの改善に有効であることを示す。
関連論文リスト
- Speech-to-Speech Translation with Discrete-Unit-Based Style Transfer [53.72998363956454]
個別の自己教師付き表現を用いた音声音声合成(S2ST)は顕著な精度を達成している。
高品質な話者並列データの不足は、翻訳中にスタイル転送を学習する上での課題となる。
我々は、個別の自己教師付き音声表現と音色単位に基づいて、スタイル変換機能を備えたS2STパイプラインを設計する。
論文 参考訳(メタデータ) (2023-09-14T09:52:08Z) - Textless Direct Speech-to-Speech Translation with Discrete Speech
Representation [27.182170555234226]
本研究では,テキストの監督なしにエンドツーエンドの直接S2STモデルをトレーニングするための新しいモデルであるTextless Translatotronを提案する。
教師なし音声データで事前訓練された音声エンコーダを両方のモデルに使用すると、提案モデルはトランスラトトロン2とほぼ同等の翻訳品質が得られる。
論文 参考訳(メタデータ) (2022-10-31T19:48:38Z) - Joint Pre-Training with Speech and Bilingual Text for Direct Speech to
Speech Translation [94.80029087828888]
直接音声音声翻訳 (S2ST) は, カスケードされたS2STと比較して, 優れた研究課題である。
直接S2STは、ソース言語の音声からターゲット言語の音声へのコーパスが非常に稀であるため、データ不足の問題に悩まされる。
本稿では,音声から音声への直接翻訳タスクのための音声とバイリンガルのテキストデータとを事前学習したSpeech2Sモデルを提案する。
論文 参考訳(メタデータ) (2022-10-31T02:55:51Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。