Fugu-MT 論文翻訳(概要): BiSinger: Bilingual Singing Voice Synthesis

論文の概要: BiSinger: Bilingual Singing Voice Synthesis

arxiv url: http://arxiv.org/abs/2309.14089v2
Date: Fri, 29 Sep 2023 01:53:30 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-02 17:18:41.152510
Title: BiSinger: Bilingual Singing Voice Synthesis
Title（参考訳）: BiSinger:バイリンガル歌声合成
Authors: Huali Zhou, Yueqian Lin, Yao Shi, Peng Sun, Ming Li
Abstract要約: 本稿では,バイリンガル・ポップSVSシステムであるBiSingerについて述べる。我々は中国語と英語の歌声の共有表現を設計し、CMU辞書とマッピング規則を用いて実現した。実験により、我々の言語非依存の表現と関連するデータセットの取り込みにより、英語とコードスウィッチSVSのパフォーマンスが向上した単一モデルが可能であることが確認された。
参考スコア（独自算出の注目度）: 9.600465391545477
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Although Singing Voice Synthesis (SVS) has made great strides with Text-to-Speech (TTS) techniques, multilingual singing voice modeling remains relatively unexplored. This paper presents BiSinger, a bilingual pop SVS system for English and Chinese Mandarin. Current systems require separate models per language and cannot accurately represent both Chinese and English, hindering code-switch SVS. To address this gap, we design a shared representation between Chinese and English singing voices, achieved by using the CMU dictionary with mapping rules. We fuse monolingual singing datasets with open-source singing voice conversion techniques to generate bilingual singing voices while also exploring the potential use of bilingual speech data. Experiments affirm that our language-independent representation and incorporation of related datasets enable a single model with enhanced performance in English and code-switch SVS while maintaining Chinese song performance. Audio samples are available at https://bisinger-svs.github.io.
Abstract（参考訳）: 歌声合成(SVS)はテキスト音声合成(TTS)技術で大きな進歩を遂げているが、多言語歌唱音声モデリングはいまだに研究されていない。本稿では,英語と中国語のマンダリン用バイリンガルpop svsシステムであるbisingerについて述べる。現在のシステムは言語ごとに別々のモデルを必要としており、中国語と英語の両方を正確に表現することはできない。このギャップに対処するため、中国語と英語の歌声の共有表現を設計し、CMU辞書とマッピング規則を用いて実現した。単言語歌唱データセットをオープンソースの歌唱音声変換技術で融合してバイリンガル音声を生成するとともに,バイリンガル音声データの利用の可能性を探る。実験により、我々の言語非依存の表現と関連するデータセットの取り込みにより、中国語の歌の演奏を維持しながら、英語とコードスウィッチのSVSの性能を向上した単一モデルが実現可能であることを確認した。オーディオサンプルはhttps://bisinger-svs.github.ioで入手できる。

関連論文リスト

TCSinger 2: Customizable Multilingual Zero-shot Singing Voice Synthesis [45.25653283957727]
マルチリンガルゼロショット歌唱音声(SVS)は、音楽合成や短いビデオダビングに様々な応用がある。マルチタスク多言語ゼロショットSVSモデルであるTCSinger 2を導入し,様々なプロンプトに基づいてスタイル転送とスタイル制御を行う。その結果,TCSinger 2は,複数のタスクの主観的および客観的な指標において,ベースラインモデルよりも優れていた。
論文参考訳（メタデータ） (2025-05-20T21:04:10Z)
Zero-AVSR: Zero-Shot Audio-Visual Speech Recognition with LLMs by Learning Language-Agnostic Speech Representations [65.59784436914548]
ローマ語文を予測して言語に依存しない音声表現を学習するAV-Romanizerについて紹介する。予測されたローマ語文を言語固有のグラフエムに変換し、提案したカスケードゼロ-AVSRを形成する。音声・言語多様性の広帯域化を図るため,MARC(Multilingual Audio-Visual Romanized Corpus)も導入した。
論文参考訳（メタデータ） (2025-03-08T16:40:13Z)
MulliVC: Multi-lingual Voice Conversion With Cycle Consistency [75.59590240034261]
MulliVCは、音色のみを変換し、多言語ペアリングデータなしでオリジナルコンテンツとソースコードの韻律を保持する新しい音声変換システムである。目的と主観の両方の結果から,MulliVCはモノリンガルとクロスリンガルの両方の文脈において,他の手法をはるかに上回っていることが示唆された。
論文参考訳（メタデータ） (2024-08-08T18:12:51Z)
FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs [63.8261207950923]
FunAudioLLMは、人間と大規模言語モデル(LLM)の間の自然な音声相互作用を強化するために設計されたモデルファミリーである中心となる2つの革新的なモデルとして、多言語音声認識、感情認識、音声イベント検出を処理するSenseVoiceと、複数の言語、音色、話し方、話者識別を制御した自然言語生成を容易にするCosyVoiceがある。 SenseVoiceとCosyVoiceに関連するモデルは、GitHubでリリースされたトレーニング、推論、微調整コードとともに、ModelscopeとHuggingfaceでオープンソース化されている。
論文参考訳（メタデータ） (2024-07-04T16:49:02Z)
PolyVoice: Language Models for Speech to Speech Translation [50.31000706309143]
PolyVoiceは音声音声翻訳のための言語モデルに基づくフレームワーク我々は、完全に教師なしの方法で生成される離散化音声単位を使用する。音声合成部では、既存のVALL-E Xアプローチを採用し、単位ベース音声言語モデルを構築する。
論文参考訳（メタデータ） (2023-06-05T15:53:15Z)
ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文参考訳（メタデータ） (2022-11-07T13:35:16Z)
Language-agnostic Code-Switching in Sequence-To-Sequence Speech Recognition [62.997667081978825]
コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。さらに,5,03%のWERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上できることを示す。
論文参考訳（メタデータ） (2022-10-17T12:15:57Z)
Towards Natural Bilingual and Code-Switched Speech Synthesis Based on Mix of Monolingual Recordings and Cross-Lingual Voice Conversion [28.830575877307176]
両方の言語でネイティブレベルの流布を実現する話者からバイリンガルコーパスを得るのは容易ではない。タコトロン2に基づく音声変換システムを用いて、マンダリン話者の英語音声と英語話者のマンダリン音声を生成する。得られたバイリンガルデータは、Transformerモデルを用いて合成されたコード切替発話で拡張される。
論文参考訳（メタデータ） (2020-10-16T03:51:00Z)
Latent linguistic embedding for cross-lingual text-to-speech and voice conversion [44.700803634034486]
言語間音声生成は、話者が話さない言語において、ターゲット話者の声で発話が生成されるシナリオである。提案手法は, 話者類似度の高い多言語VCを生成するだけでなく, 余分なステップを踏むことなく, TTSをシームレスに利用できることを示す。
論文参考訳（メタデータ） (2020-10-08T01:25:07Z)
DeepSinger: Singing Voice Synthesis with Data Mined From the Web [194.10598657846145]
DeepSinger(ディープシンガー)は、音楽ウェブサイトから抽出された歌唱訓練データを用いて、スクラッチから構築された多言語歌唱音声合成システムである。 DeepSingerを3つの言語で89人の歌手から約92時間のデータからなるマイニングされた歌唱データセットで評価した。
論文参考訳（メタデータ） (2020-07-09T07:00:48Z)
Cross-lingual Multispeaker Text-to-Speech under Limited-Data Scenario [10.779568857641928]
本稿では,多言語話者音声合成を実現するために,Tacotron2の拡張を提案する。我々は、単言語話者のための英語とマンダリンの間で、コードスイッチングを含む言語間合成を実現する。
論文参考訳（メタデータ） (2020-05-21T03:03:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。