Fugu-MT 論文翻訳(概要): ControlSpeech: Towards Simultaneous Zero-shot Speaker Cloning and Zero-shot Language Style Control With Decoupled Codec

論文の概要: ControlSpeech: Towards Simultaneous Zero-shot Speaker Cloning and Zero-shot Language Style Control With Decoupled Codec

arxiv url: http://arxiv.org/abs/2406.01205v2
Date: Tue, 22 Oct 2024 16:26:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:33.18294
Title: ControlSpeech: Towards Simultaneous Zero-shot Speaker Cloning and Zero-shot Language Style Control With Decoupled Codec
Title（参考訳）: ControlSpeech: Decoupled Codecによるゼロショット話者クローンとゼロショット言語スタイル制御の同時実現に向けて
Authors: Shengpeng Ji, Jialong Zuo, Wen Wang, Minghui Fang, Siqi Zheng, Qian Chen, Ziyue Jiang, Hai Huang, Zehan Wang, Xize Cheng, Zhou Zhao,
Abstract要約: 話者の声を完全に模倣し,任意の発話スタイルの制御と調整を可能にするTTSシステムであるControlSpeechを提案する。以前のゼロショットTSモデルとコントロール可能なTSモデルは、さらなる制御と調整機能なしでスピーカーの声を模倣することしかできず、スピーカー固有の音声生成とは無関係であった。
参考スコア（独自算出の注目度）: 50.273832905535485
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we present ControlSpeech, a text-to-speech (TTS) system capable of fully cloning the speaker's voice and enabling arbitrary control and adjustment of speaking style, merely based on a few seconds of audio prompt and a simple textual style description prompt. Prior zero-shot TTS models and controllable TTS models either could only mimic the speaker's voice without further control and adjustment capabilities or were unrelated to speaker-specific voice generation. Therefore, ControlSpeech focuses on a more challenging new task-a TTS system with controllable timbre, content, and style at the same time. ControlSpeech takes speech prompts, content prompts, and style prompts as inputs and utilizes bidirectional attention and mask-based parallel decoding to capture corresponding codec representations in a discrete decoupling codec space. Moreover, we discovered the issue of text style controllability in a many-to-many mapping fashion and proposed the Style Mixture Semantic Density (SMSD) model to resolve this problem. SMSD module which is based on Gaussian mixture density networks, is designed to enhance the fine-grained partitioning and sampling capabilities of style semantic information and generate speech with more diverse styles. In terms of experiments, we make available a controllable model toolkit called ControlToolkit with a new style controllable dataset, some replicated baseline models and propose new metrics to evaluate both the control capability and the quality of generated audio in ControlSpeech. The relevant ablation studies validate the necessity of each component in ControlSpeech is necessary. We hope that ControlSpeech can establish the next foundation paradigm of controllable speech synthesis. The relevant code and demo are available at https://github.com/jishengpeng/ControlSpeech .
Abstract（参考訳）: 本稿では,音声音声の完全クローン化を実現し,数秒の音声プロンプトと簡単なテクスチャ記述プロンプトに基づいて,任意の音声スタイルの制御と調整が可能なTTS(Text-to-Speech)システムについて述べる。以前のゼロショットTSモデルとコントロール可能なTSモデルは、さらなる制御と調整機能なしでスピーカーの声を模倣することしかできず、スピーカー固有の音声生成とは無関係であった。そのため、ControlSpeechは、制御可能な音色、コンテンツ、スタイルを同時に備えた、より困難なタスク・ア・TSシステムにフォーカスしている。 ControlSpeechは、音声プロンプト、コンテンツプロンプト、スタイルプロンプトを入力として取り、双方向の注意とマスクベースの並列デコードを使用して、対応するコーデック表現を離散デカップリングコーデック空間でキャプチャする。さらに、多対多のマッピング方式でテキストスタイルの制御性の問題を発見し、この問題を解決するためにスタイル混合意味密度(SMSD)モデルを提案した。ガウス混合密度ネットワークに基づくSMSDモジュールは,スタイル意味情報の詳細な分割とサンプリング機能を強化し,より多様なスタイルで音声を生成するように設計されている。実験では、新しいスタイル制御可能なデータセット、いくつかの再現ベースラインモデルを備えた制御可能なモデルツールキット「ControlToolkit」を利用可能にするとともに、ControlSpeechにおける制御機能と生成オーディオの品質の両方を評価するための新しいメトリクスを提案する。関連するアブレーション研究は、制御音声における各成分の必要性を検証している。 ControlSpeechが、制御可能な音声合成の次の基盤パラダイムを確立できることを願っている。関連コードとデモはhttps://github.com/jishengpeng/ControlSpeech.comで公開されている。

関連論文リスト

Spark-TTS: An Efficient LLM-Based Text-to-Speech Model with Single-Stream Decoupled Speech Tokens [31.575335190916995]
本稿では,音声を2つの補完トークンタイプに分解する単一ストリーム音声であるBiCodecを利用した新しいシステムであるSpark-TTSを紹介する。制御可能なTSの研究を容易にするために,包括的な属性アノテーションを備えた10000時間データセットであるVoxBoxを紹介した。
論文参考訳（メタデータ） (2025-03-03T16:23:10Z)
IndexTTS: An Industrial-Level Controllable and Efficient Zero-Shot Text-To-Speech System [6.686126079510178]
本稿では,主にXTTSとTortoiseモデルに基づくIndexTTSシステムを紹介する。具体的には、中国語のシナリオでは、文字とピンインを組み合わせたハイブリッドなモデリング手法を採用する。 XTTSと比較すると、自然性、コンテンツ一貫性、ゼロショット音声クローンの大幅な改善が達成されている。
論文参考訳（メタデータ） (2025-02-08T10:23:20Z)
Description-based Controllable Text-to-Speech with Cross-Lingual Voice Control [14.145510487599932]
本稿では,言語間制御機能を備えた新しい制御可能なテキスト音声合成手法を提案する。我々は、ターゲット言語で訓練されたTSモデルと、他の言語で訓練された記述制御モデルを組み合わせて、入力されたテキスト記述をTSモデルの条件付き特徴にマッピングする。英語と日本語のTTS実験により,本手法が両言語に対して高い自然性と制御性を実現することを示す。
論文参考訳（メタデータ） (2024-09-26T01:08:09Z)
Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文参考訳（メタデータ） (2024-03-18T13:39:05Z)
TextrolSpeech: A Text Style Control Speech Corpus With Codec Language Text-to-Speech Models [51.529485094900934]
リッチテキスト属性を付加した最初の大規模音声感情データセットであるTextrolSpeechを提案する。本稿では,GPTモデルを利用した多段階プロンプトプログラミング手法を提案する。そこで我々は,より多様なスタイルで音声を生成する必要性に対処するため,Salleと呼ばれる効率的なアーキテクチャを提案する。
論文参考訳（メタデータ） (2023-08-28T09:06:32Z)
SpeechX: Neural Codec Language Model as a Versatile Speech Transformer [57.82364057872905]
SpeechX は、ゼロショット TTS と様々な音声変換タスクが可能な汎用音声生成モデルである。実験結果から, ゼロショットTS, ノイズ抑制, ターゲット話者抽出, 音声除去, 背景雑音の有無による音声編集など, 各種タスクにおけるSpeechXの有効性が示された。
論文参考訳（メタデータ） (2023-08-14T01:01:19Z)
Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。 Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文参考訳（メタデータ） (2023-06-06T08:54:49Z)
Controllable Speaking Styles Using a Large Language Model [13.642358232817342]
Text-to-Speech (TTS) モデルは、同じターゲットテキストの複数の、韻律的に異なる変換を生成することができる。現在、推論中にこれらのモデルを制御するには、一般的に適切な参照発話を見つける必要がある。ここでは、話し方の制御と、ある対話文脈に適した韻律の2つの実演を行う。
論文参考訳（メタデータ） (2023-05-17T16:01:50Z)
Controllable speech synthesis by learning discrete phoneme-level prosodic representations [53.926969174260705]
直感的な離散ラベルを用いたF0と持続時間に対する音素レベル韻律制御のための新しい手法を提案する。複数話者音声データセットから音素レベルF0と持続時間の特徴を識別するために用いられる教師なし韻律クラスタリングプロセスを提案する。
論文参考訳（メタデータ） (2022-11-29T15:43:36Z)
Towards Natural and Controllable Cross-Lingual Voice Conversion Based on Neural TTS Model and Phonetic Posteriorgram [21.652906261475533]
言語間の音声変換は、音素集合のかなりのミスマッチと異なる言語の音声韻律のために難しい問題である。我々は、新しい言語間VCフレームワークであるFastSpeech-VCを設計するために、ニューラルテキスト音声(TTS)モデルを構築した。
論文参考訳（メタデータ） (2021-02-03T10:28:07Z)
NAUTILUS: a Versatile Voice Cloning System [44.700803634034486]
NAUTILUSは、任意のソーススピーカのテキスト入力または参照発話から、ターゲット音声で音声を生成することができる。バックプロパゲーションアルゴリズムに基づいて、ターゲット話者の未転写音声を用いて、未知の声をクローンすることができる。最新技術であるTSやVCシステムと同等のクオリティを達成し、翻訳されていない音声を5分でクローンする。
論文参考訳（メタデータ） (2020-05-22T05:00:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。