論文の概要: CosyVoice 3: Towards In-the-wild Speech Generation via Scaling-up and Post-training
- arxiv url: http://arxiv.org/abs/2505.17589v1
- Date: Fri, 23 May 2025 07:55:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.9069
- Title: CosyVoice 3: Towards In-the-wild Speech Generation via Scaling-up and Post-training
- Title(参考訳): CosyVoice 3:スケーリングとポストトレーニングによるアプリ内音声生成を目指して
- Authors: Zhihao Du, Changfeng Gao, Yuxuan Wang, Fan Yu, Tianyu Zhao, Hao Wang, Xiang Lv, Hui Wang, Xian Shi, Keyu An, Guanrou Yang, Yabin Li, Yanni Chen, Zhifu Gao, Qian Chen, Yue Gu, Mengzhe Chen, Yafeng Chen, Shiliang Zhang, Wen Wang, Jieping Ye,
- Abstract要約: 野生におけるゼロショット多言語音声合成のための改良モデルであるCosyVoice 3を提案する。
CosyVoice 3の主な特徴は、韻律自然性を改善する新しい音声トークンである。
データは1万時間から100万時間に拡張され、9つの言語と18の中国語方言を含んでいる。
- 参考スコア(独自算出の注目度): 70.10844677737886
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In our prior works, we introduced a scalable streaming speech synthesis model, CosyVoice 2, which integrates a large language model (LLM) and a chunk-aware flow matching (FM) model, and achieves low-latency bi-streaming speech synthesis and human-parity quality. Despite these advancements, CosyVoice 2 exhibits limitations in language coverage, domain diversity, data volume, text formats, and post-training techniques. In this paper, we present CosyVoice 3, an improved model designed for zero-shot multilingual speech synthesis in the wild, surpassing its predecessor in content consistency, speaker similarity, and prosody naturalness. Key features of CosyVoice 3 include: 1) A novel speech tokenizer to improve prosody naturalness, developed via supervised multi-task training, including automatic speech recognition, speech emotion recognition, language identification, audio event detection, and speaker analysis. 2) A new differentiable reward model for post-training applicable not only to CosyVoice 3 but also to other LLM-based speech synthesis models. 3) Dataset Size Scaling: Training data is expanded from ten thousand hours to one million hours, encompassing 9 languages and 18 Chinese dialects across various domains and text formats. 4) Model Size Scaling: Model parameters are increased from 0.5 billion to 1.5 billion, resulting in enhanced performance on our multilingual benchmark due to the larger model capacity. These advancements contribute significantly to the progress of speech synthesis in the wild. We encourage readers to listen to the demo at https://funaudiollm.github.io/cosyvoice3.
- Abstract(参考訳): 従来,大規模言語モデル (LLM) とチャンク認識フローマッチング (FM) モデルを統合したスケーラブルなストリーミング音声合成モデルであるCosyVoice 2を導入し,低レイテンシな双方向音声合成と人相品質を実現する。
これらの進歩にもかかわらず、CosyVoice 2は言語カバレッジ、ドメインの多様性、データボリューム、テキストフォーマット、トレーニング後のテクニックに制限がある。
本稿では,ゼロショット多言語音声合成のための改良モデルであるCosyVoice 3について述べる。
CosyVoice 3の主な特徴は以下のとおりである。
1) 自動音声認識, 音声感情認識, 言語識別, 音声イベント検出, 話者分析を含む, 教師付きマルチタスク学習により, 韻律自然性を改善する新しい音声トークン化手法を開発した。
2)CosyVoice 3 だけでなく,他の LLM ベース音声合成モデルにも適用可能な新しい学習後報酬モデルを提案する。
3)データセットサイズスケーリング: トレーニングデータは1万時間から100万時間に拡張され、さまざまなドメインやテキストフォーマットにわたる9つの言語と18の中国語方言を含んでいる。
4) モデルサイズスケーリング: モデルのパラメータは0.5億から15億に増加します。
これらの進歩は、野生における音声合成の進展に大きく貢献する。
私たちは読者に対して、https://funaudiollm.github.io/cosyvoice3.comでデモを聞くように勧めています。
関連論文リスト
- CosyVoice 2: Scalable Streaming Speech Synthesis with Large Language Models [74.80386066714229]
改良されたストリーミング音声合成モデルCosyVoice 2を提案する。
具体的には,音声トークンのコードブック利用を改善するために,有限スカラー量子化を導入する。
我々は,様々な合成シナリオをサポートするために,チャンク対応因果フローマッチングモデルを開発した。
論文 参考訳(メタデータ) (2024-12-13T12:59:39Z) - FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs [63.8261207950923]
FunAudioLLMは、人間と大規模言語モデル(LLM)の間の自然な音声相互作用を強化するために設計されたモデルファミリーである
中心となる2つの革新的なモデルとして、多言語音声認識、感情認識、音声イベント検出を処理するSenseVoiceと、複数の言語、音色、話し方、話者識別を制御した自然言語生成を容易にするCosyVoiceがある。
SenseVoiceとCosyVoiceに関連するモデルは、GitHubでリリースされたトレーニング、推論、微調整コードとともに、ModelscopeとHuggingfaceでオープンソース化されている。
論文 参考訳(メタデータ) (2024-07-04T16:49:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。