論文の概要: PolySinger: Singing-Voice to Singing-Voice Translation from English to Japanese
- arxiv url: http://arxiv.org/abs/2407.14399v1
- Date: Fri, 19 Jul 2024 15:21:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 19:46:03.979729
- Title: PolySinger: Singing-Voice to Singing-Voice Translation from English to Japanese
- Title(参考訳): PolySinger:Sing-Voice to Sing-Voice Translation from English to Japanese
- Authors: Silas Antonisen, Iván López-Espejo,
- Abstract要約: 歌声合成システムは多言語合成の障壁を克服している。
本稿では,SV2SVTの成功に何が必要なのかを判断し,SV2SVTの最初のシステムであるPolySinger(Polyglot Singer)を提案する。
- 参考スコア(独自算出の注目度): 0.913127392774573
- License:
- Abstract: The speech domain prevails in the spotlight for several natural language processing (NLP) tasks while the singing domain remains less explored. The culmination of NLP is the speech-to-speech translation (S2ST) task, referring to translation and synthesis of human speech. A disparity between S2ST and the possible adaptation to the singing domain, which we describe as singing-voice to singing-voice translation (SV2SVT), is becoming prominent as the former is progressing ever faster, while the latter is at a standstill. Singing-voice synthesis systems are overcoming the barrier of multi-lingual synthesis, despite limited attention has been paid to multi-lingual songwriting and song translation. This paper endeavors to determine what is required for successful SV2SVT and proposes PolySinger (Polyglot Singer): the first system for SV2SVT, performing lyrics translation from English to Japanese. A cascaded approach is proposed to establish a framework with a high degree of control which can potentially diminish the disparity between SV2SVT and S2ST. The performance of PolySinger is evaluated by a mean opinion score test with native Japanese speakers. Results and in-depth discussions with test subjects suggest a solid foundation for SV2SVT, but several shortcomings must be overcome, which are discussed for the future of SV2SVT.
- Abstract(参考訳): 音声領域はいくつかの自然言語処理(NLP)タスクのスポットライトで広く使われているが、歌唱領域はいまだ探索されていない。
NLPの完成は、人間の音声の翻訳と合成に言及した音声音声翻訳(S2ST)タスクである。
歌唱音声翻訳(SV2SVT)におけるS2STと歌唱領域への適応の相違は,歌唱音声翻訳(SV2SVT)がより速く進行しているのに対して,S2STと歌唱領域への適応の相違が顕著になっている。
歌声合成システムは多言語合成の障壁を克服している。
本稿では,SV2SVT の成功に何が必要なのかを判断し,SV2SVT の最初のシステムである PolySinger (Polyglot Singer) を提案する。
SV2SVTとS2STの相違を低減できる高い制御能力を持つフレームワークを構築するためのケースドアプローチが提案されている。
The performance of PolySinger are evaluation by a mean opinion score test with Japanese speaker。
SV2SVTの今後の課題として, SV2SVTの根本的基盤が示唆されているが, 今後の課題を克服する必要がある。
関連論文リスト
- Preset-Voice Matching for Privacy Regulated Speech-to-Speech Translation Systems [3.244480000664757]
この研究は、Preset-Voice Matching (PVM)と呼ばれる規制付きS2STフレームワークを提案する。
PVMは、まず入力音声と、ターゲット言語における類似の同意話者音声とをマッチングすることにより、S2STにおける言語間音声のクローニングを除去する。
PVMはマルチスピーカ環境下でのS2STシステム実行時間を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2024-07-18T04:42:01Z) - Prosody in Cascade and Direct Speech-to-Text Translation: a case study
on Korean Wh-Phrases [79.07111754406841]
本研究は,韻律が重要な役割を果たす発話を明瞭にするための直接S2TTシステムの能力を評価するために,コントラスト評価を用いることを提案する。
本結果は,カスケード翻訳モデルよりも直接翻訳システムの価値を明確に示すものである。
論文 参考訳(メタデータ) (2024-02-01T14:46:35Z) - BiSinger: Bilingual Singing Voice Synthesis [9.600465391545477]
本稿では,バイリンガル・ポップSVSシステムであるBiSingerについて述べる。
我々は中国語と英語の歌声の共有表現を設計し、CMU辞書とマッピング規則を用いて実現した。
実験により、我々の言語非依存の表現と関連するデータセットの取り込みにより、英語とコードスウィッチSVSのパフォーマンスが向上した単一モデルが可能であることが確認された。
論文 参考訳(メタデータ) (2023-09-25T12:31:05Z) - Towards Improving the Expressiveness of Singing Voice Synthesis with
BERT Derived Semantic Information [51.02264447897833]
本稿では、変換器(BERT)から派生したセマンティック埋め込みから双方向エンコーダ表現を用いた、エンドツーエンドの高品質な歌声合成(SVS)システムを提案する。
提案したSVSシステムは、高品質なVISingerで歌声を生成することができる。
論文 参考訳(メタデータ) (2023-08-31T16:12:01Z) - Enhancing Speech-to-Speech Translation with Multiple TTS Targets [62.18395387305803]
直接S2STモデルに対する合成対象音声の変更の効果を解析する。
異なるTSシステムから複数のターゲットを持つS2STシステムを協調的に最適化するマルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-10T14:33:33Z) - A Holistic Cascade System, benchmark, and Human Evaluation Protocol for
Expressive Speech-to-Speech Translation [45.47457657122893]
表現型音声音声合成(S2ST)は,翻訳精度を維持しつつ,音源音声の韻律的属性を対象音声に伝達することを目的としている。
既存のS2STの研究は限定的であり、通常は一度に1つの表現性に焦点をあてる。
そこで本稿では,S2ST表現のための包括的カスケードシステムを提案する。
論文 参考訳(メタデータ) (2023-01-25T14:27:00Z) - Textless Direct Speech-to-Speech Translation with Discrete Speech
Representation [27.182170555234226]
本研究では,テキストの監督なしにエンドツーエンドの直接S2STモデルをトレーニングするための新しいモデルであるTextless Translatotronを提案する。
教師なし音声データで事前訓練された音声エンコーダを両方のモデルに使用すると、提案モデルはトランスラトトロン2とほぼ同等の翻訳品質が得られる。
論文 参考訳(メタデータ) (2022-10-31T19:48:38Z) - Joint Pre-Training with Speech and Bilingual Text for Direct Speech to
Speech Translation [94.80029087828888]
直接音声音声翻訳 (S2ST) は, カスケードされたS2STと比較して, 優れた研究課題である。
直接S2STは、ソース言語の音声からターゲット言語の音声へのコーパスが非常に稀であるため、データ不足の問題に悩まされる。
本稿では,音声から音声への直接翻訳タスクのための音声とバイリンガルのテキストデータとを事前学習したSpeech2Sモデルを提案する。
論文 参考訳(メタデータ) (2022-10-31T02:55:51Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Modeling Prosodic Phrasing with Multi-Task Learning in Tacotron-based
TTS [74.11899135025503]
本稿では,Tacotronに基づく音声合成フレームワークを拡張し,韻律句のブレークを明示的にモデル化する。
提案手法は中国語とモンゴル語の両方の音質を一貫して改善することを示す。
論文 参考訳(メタデータ) (2020-08-11T07:57:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。