論文の概要: ControlSpeech: Towards Simultaneous and Independent Zero-shot Speaker Cloning and Zero-shot Language Style Control
- arxiv url: http://arxiv.org/abs/2406.01205v3
- Date: Wed, 04 Jun 2025 06:07:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 18:52:34.8703
- Title: ControlSpeech: Towards Simultaneous and Independent Zero-shot Speaker Cloning and Zero-shot Language Style Control
- Title(参考訳): ControlSpeech: 同時かつ独立なゼロショット話者クローンとゼロショット言語スタイル制御を目指して
- Authors: Shengpeng Ji, Qian Chen, Wen Wang, Jialong Zuo, Minghui Fang, Ziyue Jiang, Hai Huang, Zehan Wang, Xize Cheng, Siqi Zheng, Zhou Zhao,
- Abstract要約: ControlSpeechは、話者の声を完全にクローンし、任意の制御と話し方の調整を可能にするTTS(text-to-speech)システムである。
ControlSpeechは、制御性、音色類似性、音質、堅牢性、一般化性の観点から、同等または最先端(SOTA)性能を示す。
- 参考スコア(独自算出の注目度): 50.27383290553548
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present ControlSpeech, a text-to-speech (TTS) system capable of fully cloning the speaker's voice and enabling arbitrary control and adjustment of speaking style. Prior zero-shot TTS models only mimic the speaker's voice without further control and adjustment capabilities while prior controllable TTS models cannot perform speaker-specific voice generation. Therefore, ControlSpeech focuses on a more challenging task: a TTS system with controllable timbre, content, and style at the same time. ControlSpeech takes speech prompts, content prompts, and style prompts as inputs and utilizes bidirectional attention and mask-based parallel decoding to capture codec representations corresponding to timbre, content, and style in a discrete decoupling codec space. Moreover, we analyze the many-to-many issue in textual style control and propose the Style Mixture Semantic Density (SMSD) module, which is based on Gaussian mixture density networks, to resolve this problem. To facilitate empirical validations, we make available a new style controllable dataset called VccmDataset. Our experimental results demonstrate that ControlSpeech exhibits comparable or state-of-the-art (SOTA) performance in terms of controllability, timbre similarity, audio quality, robustness, and generalizability. The relevant code and demo are available at https://github.com/jishengpeng/ControlSpeech .
- Abstract(参考訳): 本稿では,話者の音声を完全にクローニングし,任意の発話スタイルの制御と調整を可能にするTTS(text-to-speech)システムであるControlSpeechを提案する。
従来のゼロショットTSモデルは、制御可能なTSモデルでは話者固有の音声生成を行うことができないが、制御および調整機能を持たずに話者の声のみを模倣する。
そのため、ControlSpeechは、コントロール可能な音色、コンテンツ、スタイルを同時に備えたTSシステムという、より困難なタスクに焦点を当てている。
ControlSpeechは、音声プロンプト、コンテンツプロンプト、スタイルプロンプトを入力として取り、双方向の注意とマスクベースの並列デコードを使用して、個別のデカップリングコーデック空間における音色、内容、スタイルに対応するコーデック表現をキャプチャする。
さらに、テキストスタイル制御における多対多の問題を分析し、ガウス混合密度ネットワークに基づくスタイル混合意味密度(SMSD)モジュールを提案し、この問題を解決する。
経験的検証を容易にするため、VccmDatasetと呼ばれる新しいスタイル制御可能なデータセットを利用可能にしました。
実験結果から,制御性,音色類似性,音質,頑健性,一般化性といった点において,ControlSpeechは同等あるいは最先端(SOTA)性能を示すことがわかった。
関連コードとデモはhttps://github.com/jishengpeng/ControlSpeech.comで公開されている。
関連論文リスト
- Spark-TTS: An Efficient LLM-Based Text-to-Speech Model with Single-Stream Decoupled Speech Tokens [31.575335190916995]
本稿では,音声を2つの補完トークンタイプに分解する単一ストリーム音声であるBiCodecを利用した新しいシステムであるSpark-TTSを紹介する。
制御可能なTSの研究を容易にするために,包括的な属性アノテーションを備えた10000時間データセットであるVoxBoxを紹介した。
論文 参考訳(メタデータ) (2025-03-03T16:23:10Z) - IndexTTS: An Industrial-Level Controllable and Efficient Zero-Shot Text-To-Speech System [6.686126079510178]
本稿では,主にXTTSとTortoiseモデルに基づくIndexTTSシステムを紹介する。
具体的には、中国語のシナリオでは、文字とピンインを組み合わせたハイブリッドなモデリング手法を採用する。
XTTSと比較すると、自然性、コンテンツ一貫性、ゼロショット音声クローンの大幅な改善が達成されている。
論文 参考訳(メタデータ) (2025-02-08T10:23:20Z) - Description-based Controllable Text-to-Speech with Cross-Lingual Voice
Control [14.145510487599932]
本稿では,言語間制御機能を備えた新しい制御可能なテキスト音声合成手法を提案する。
我々は、ターゲット言語で訓練されたTSモデルと、他の言語で訓練された記述制御モデルを組み合わせて、入力されたテキスト記述をTSモデルの条件付き特徴にマッピングする。
英語と日本語のTTS実験により,本手法が両言語に対して高い自然性と制御性を実現することを示す。
論文 参考訳(メタデータ) (2024-09-26T01:08:09Z) - Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。
我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。
実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文 参考訳(メタデータ) (2024-03-18T13:39:05Z) - TextrolSpeech: A Text Style Control Speech Corpus With Codec Language
Text-to-Speech Models [51.529485094900934]
リッチテキスト属性を付加した最初の大規模音声感情データセットであるTextrolSpeechを提案する。
本稿では,GPTモデルを利用した多段階プロンプトプログラミング手法を提案する。
そこで我々は,より多様なスタイルで音声を生成する必要性に対処するため,Salleと呼ばれる効率的なアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-08-28T09:06:32Z) - SpeechX: Neural Codec Language Model as a Versatile Speech Transformer [57.82364057872905]
SpeechX は、ゼロショット TTS と様々な音声変換タスクが可能な汎用音声生成モデルである。
実験結果から, ゼロショットTS, ノイズ抑制, ターゲット話者抽出, 音声除去, 背景雑音の有無による音声編集など, 各種タスクにおけるSpeechXの有効性が示された。
論文 参考訳(メタデータ) (2023-08-14T01:01:19Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - Controllable Speaking Styles Using a Large Language Model [13.642358232817342]
Text-to-Speech (TTS) モデルは、同じターゲットテキストの複数の、韻律的に異なる変換を生成することができる。
現在、推論中にこれらのモデルを制御するには、一般的に適切な参照発話を見つける必要がある。
ここでは、話し方の制御と、ある対話文脈に適した韻律の2つの実演を行う。
論文 参考訳(メタデータ) (2023-05-17T16:01:50Z) - Controllable speech synthesis by learning discrete phoneme-level
prosodic representations [53.926969174260705]
直感的な離散ラベルを用いたF0と持続時間に対する音素レベル韻律制御のための新しい手法を提案する。
複数話者音声データセットから音素レベルF0と持続時間の特徴を識別するために用いられる教師なし韻律クラスタリングプロセスを提案する。
論文 参考訳(メタデータ) (2022-11-29T15:43:36Z) - Towards Natural and Controllable Cross-Lingual Voice Conversion Based on
Neural TTS Model and Phonetic Posteriorgram [21.652906261475533]
言語間の音声変換は、音素集合のかなりのミスマッチと異なる言語の音声韻律のために難しい問題である。
我々は、新しい言語間VCフレームワークであるFastSpeech-VCを設計するために、ニューラルテキスト音声(TTS)モデルを構築した。
論文 参考訳(メタデータ) (2021-02-03T10:28:07Z) - NAUTILUS: a Versatile Voice Cloning System [44.700803634034486]
NAUTILUSは、任意のソーススピーカのテキスト入力または参照発話から、ターゲット音声で音声を生成することができる。
バックプロパゲーションアルゴリズムに基づいて、ターゲット話者の未転写音声を用いて、未知の声をクローンすることができる。
最新技術であるTSやVCシステムと同等のクオリティを達成し、翻訳されていない音声を5分でクローンする。
論文 参考訳(メタデータ) (2020-05-22T05:00:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。