論文の概要: CrossVoice: Crosslingual Prosody Preserving Cascade-S2ST using Transfer Learning
- arxiv url: http://arxiv.org/abs/2406.00021v2
- Date: Tue, 18 Jun 2024 05:26:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-20 01:15:43.857880
- Title: CrossVoice: Crosslingual Prosody Preserving Cascade-S2ST using Transfer Learning
- Title(参考訳): CrossVoice:Transfer Learningを用いたCasscade-S2STの言語間韻律保存
- Authors: Medha Hira, Arnav Goel, Anubha Gupta,
- Abstract要約: CrossVoiceは、高度なASR, MT, TTS技術を用いて、トランスファー学習による言語間韻律の保存を行う新しいカスケードベースの音声音声翻訳システムである。
我々は、CrossVoiceと直接S2STシステムを比較し、Fisher Es-En、VoxPopuli Fr-EnなどのタスクにおけるBLEUスコアの改善と、ベンチマークデータセットCVSS-T、IndicTTSの韻律保存について総合的な実験を行った。
- 参考スコア(独自算出の注目度): 4.396042489971948
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents CrossVoice, a novel cascade-based Speech-to-Speech Translation (S2ST) system employing advanced ASR, MT, and TTS technologies with cross-lingual prosody preservation through transfer learning. We conducted comprehensive experiments comparing CrossVoice with direct-S2ST systems, showing improved BLEU scores on tasks such as Fisher Es-En, VoxPopuli Fr-En and prosody preservation on benchmark datasets CVSS-T and IndicTTS. With an average mean opinion score of 3.75 out of 4, speech synthesized by CrossVoice closely rivals human speech on the benchmark, highlighting the efficacy of cascade-based systems and transfer learning in multilingual S2ST with prosody transfer.
- Abstract(参考訳): ASR,MT,TS技術を用いた新しい音声合成システムであるCrossVoiceについて述べる。
我々は,CrossVoiceと直接S2STシステムを比較した総合的な実験を行い,Fisher Es-En,VoxPopuli Fr-EnなどのタスクにおけるBLEUスコアの改善と,ベンチマークデータセットCVSS-T,IndicTTSの韻律保存について検討した。
平均意見スコアは4点中3.75点で、CrossVoiceによって合成された音声は、そのベンチマークにおいて人間の音声と密接に競合し、カスケードベースのシステムの有効性と、韻律変換を伴う多言語S2STにおける伝達学習を強調している。
関連論文リスト
- Can We Achieve High-quality Direct Speech-to-Speech Translation without Parallel Speech Data? [49.42189569058647]
2パス直接音声音声変換(S2ST)モデルは、タスクを音声音声翻訳(S2TT)とテキスト音声翻訳(TTS)に分解する
本稿では,事前学習した任意のS2TTおよびTSモデルを直接S2STモデルにシームレスに統合できるComSpeechという複合S2STモデルを提案する。
また,S2TTとTSデータのみを利用した新しいトレーニング手法ComSpeech-ZSを提案する。
論文 参考訳(メタデータ) (2024-06-11T14:17:12Z) - Speech-to-Speech Translation with Discrete-Unit-Based Style Transfer [53.72998363956454]
個別の自己教師付き表現を用いた音声音声合成(S2ST)は顕著な精度を達成している。
高品質な話者並列データの不足は、翻訳中にスタイル転送を学習する上での課題となる。
我々は、個別の自己教師付き音声表現と音色単位に基づいて、スタイル変換機能を備えたS2STパイプラインを設計する。
論文 参考訳(メタデータ) (2023-09-14T09:52:08Z) - Enhancing Speech-to-Speech Translation with Multiple TTS Targets [62.18395387305803]
直接S2STモデルに対する合成対象音声の変更の効果を解析する。
異なるTSシステムから複数のターゲットを持つS2STシステムを協調的に最適化するマルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-10T14:33:33Z) - Joint Pre-Training with Speech and Bilingual Text for Direct Speech to
Speech Translation [94.80029087828888]
直接音声音声翻訳 (S2ST) は, カスケードされたS2STと比較して, 優れた研究課題である。
直接S2STは、ソース言語の音声からターゲット言語の音声へのコーパスが非常に稀であるため、データ不足の問題に悩まされる。
本稿では,音声から音声への直接翻訳タスクのための音声とバイリンガルのテキストデータとを事前学習したSpeech2Sモデルを提案する。
論文 参考訳(メタデータ) (2022-10-31T02:55:51Z) - Improving Speech-to-Speech Translation Through Unlabeled Text [39.28273721043411]
直接音声音声変換(S2ST)は、翻訳パラダイムにおいて最も難しい問題の一つである。
そこで本稿では,S2STデータを生成するために,異なる言語からの大量の未ラベルテキストを効果的に活用する方法を提案する。
論文 参考訳(メタデータ) (2022-10-26T06:52:19Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - ASR data augmentation in low-resource settings using cross-lingual
multi-speaker TTS and cross-lingual voice conversion [49.617722668505834]
提案手法は,モデル学習中に1つの話者のみを用いて音声合成と音声変換を行い,ASRシステムの改善を可能にする。
対象言語における1つの実話者のみを用いてデータ拡張法を用いて、有望なASRトレーニング結果を得ることが可能である。
論文 参考訳(メタデータ) (2022-03-29T11:55:30Z) - Leveraging unsupervised and weakly-supervised data to improve direct
speech-to-speech translation [32.24706553793383]
中間的なテキスト表現に依存しない音声音声翻訳(S2ST)は、急速に研究のフロンティアになりつつある。
近年の研究では、このような直接S2STシステムの性能が、同等のデータセットでトレーニングされた場合、従来のカスケードS2STシステムに近づいていることが示されている。
本研究では,トランスラトトロン2に基づく直接S2STの性能向上のために,より広く利用可能な教師なし・弱教師付き音声・テキストデータを活用するための複数のアプローチについて検討する。
論文 参考訳(メタデータ) (2022-03-24T21:06:15Z) - Semi-supervised transfer learning for language expansion of end-to-end
speech recognition models to low-resource languages [19.44975351652865]
低音源言語における音声認識精度向上のための3段階学習手法を提案する。
我々は、翻訳学習、TS拡張、SSLを用いて、よく訓練された英語モデル、ラベルなしテキストコーパス、ラベルなしオーディオコーパスを利用する。
第1パスにおけるモノトニック・チャンクワイド・アテンション(MoA)を用いた2パス音声認識システムでは,ベースラインに対するWERの42%削減を実現している。
論文 参考訳(メタデータ) (2021-11-19T05:09:16Z) - Incremental Speech Synthesis For Speech-To-Speech Translation [23.951060578077445]
本稿では,TSモデルの逐次合成性能の向上に焦点をあてる。
プレフィックスに基づく単純なデータ拡張戦略により、インクリメンタルTS品質を改善してオフラインパフォーマンスにアプローチすることが可能になります。
本稿では,S2STアプリケーションに適したレイテンシメトリクスを提案し,このコンテキストにおける遅延低減手法について検討する。
論文 参考訳(メタデータ) (2021-10-15T17:20:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。