Fugu-MT 論文翻訳(概要): CosyVoice 3: Towards In-the-wild Speech Generation via Scaling-up and Post-training

論文の概要: CosyVoice 3: Towards In-the-wild Speech Generation via Scaling-up and Post-training

arxiv url: http://arxiv.org/abs/2505.17589v1
Date: Fri, 23 May 2025 07:55:21 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-26 18:08:33.9069
Title: CosyVoice 3: Towards In-the-wild Speech Generation via Scaling-up and Post-training
Title（参考訳）: CosyVoice 3:スケーリングとポストトレーニングによるアプリ内音声生成を目指して
Authors: Zhihao Du, Changfeng Gao, Yuxuan Wang, Fan Yu, Tianyu Zhao, Hao Wang, Xiang Lv, Hui Wang, Xian Shi, Keyu An, Guanrou Yang, Yabin Li, Yanni Chen, Zhifu Gao, Qian Chen, Yue Gu, Mengzhe Chen, Yafeng Chen, Shiliang Zhang, Wen Wang, Jieping Ye,
Abstract要約: 野生におけるゼロショット多言語音声合成のための改良モデルであるCosyVoice 3を提案する。 CosyVoice 3の主な特徴は、韻律自然性を改善する新しい音声トークンである。データは1万時間から100万時間に拡張され、9つの言語と18の中国語方言を含んでいる。
参考スコア（独自算出の注目度）: 70.10844677737886
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In our prior works, we introduced a scalable streaming speech synthesis model, CosyVoice 2, which integrates a large language model (LLM) and a chunk-aware flow matching (FM) model, and achieves low-latency bi-streaming speech synthesis and human-parity quality. Despite these advancements, CosyVoice 2 exhibits limitations in language coverage, domain diversity, data volume, text formats, and post-training techniques. In this paper, we present CosyVoice 3, an improved model designed for zero-shot multilingual speech synthesis in the wild, surpassing its predecessor in content consistency, speaker similarity, and prosody naturalness. Key features of CosyVoice 3 include: 1) A novel speech tokenizer to improve prosody naturalness, developed via supervised multi-task training, including automatic speech recognition, speech emotion recognition, language identification, audio event detection, and speaker analysis. 2) A new differentiable reward model for post-training applicable not only to CosyVoice 3 but also to other LLM-based speech synthesis models. 3) Dataset Size Scaling: Training data is expanded from ten thousand hours to one million hours, encompassing 9 languages and 18 Chinese dialects across various domains and text formats. 4) Model Size Scaling: Model parameters are increased from 0.5 billion to 1.5 billion, resulting in enhanced performance on our multilingual benchmark due to the larger model capacity. These advancements contribute significantly to the progress of speech synthesis in the wild. We encourage readers to listen to the demo at https://funaudiollm.github.io/cosyvoice3.
Abstract（参考訳）: 従来,大規模言語モデル (LLM) とチャンク認識フローマッチング (FM) モデルを統合したスケーラブルなストリーミング音声合成モデルであるCosyVoice 2を導入し,低レイテンシな双方向音声合成と人相品質を実現する。これらの進歩にもかかわらず、CosyVoice 2は言語カバレッジ、ドメインの多様性、データボリューム、テキストフォーマット、トレーニング後のテクニックに制限がある。本稿では,ゼロショット多言語音声合成のための改良モデルであるCosyVoice 3について述べる。 CosyVoice 3の主な特徴は以下のとおりである。 1) 自動音声認識, 音声感情認識, 言語識別, 音声イベント検出, 話者分析を含む, 教師付きマルチタスク学習により, 韻律自然性を改善する新しい音声トークン化手法を開発した。 2)CosyVoice 3 だけでなく,他の LLM ベース音声合成モデルにも適用可能な新しい学習後報酬モデルを提案する。 3)データセットサイズスケーリング: トレーニングデータは1万時間から100万時間に拡張され、さまざまなドメインやテキストフォーマットにわたる9つの言語と18の中国語方言を含んでいる。 4) モデルサイズスケーリング: モデルのパラメータは0.5億から15億に増加します。これらの進歩は、野生における音声合成の進展に大きく貢献する。私たちは読者に対して、https://funaudiollm.github.io/cosyvoice3.comでデモを聞くように勧めています。

関連論文リスト

CosyVoice 2: Scalable Streaming Speech Synthesis with Large Language Models [74.80386066714229]
改良されたストリーミング音声合成モデルCosyVoice 2を提案する。具体的には,音声トークンのコードブック利用を改善するために,有限スカラー量子化を導入する。我々は,様々な合成シナリオをサポートするために,チャンク対応因果フローマッチングモデルを開発した。
論文参考訳（メタデータ） (2024-12-13T12:59:39Z)
FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs [63.8261207950923]
FunAudioLLMは、人間と大規模言語モデル(LLM)の間の自然な音声相互作用を強化するために設計されたモデルファミリーである中心となる2つの革新的なモデルとして、多言語音声認識、感情認識、音声イベント検出を処理するSenseVoiceと、複数の言語、音色、話し方、話者識別を制御した自然言語生成を容易にするCosyVoiceがある。 SenseVoiceとCosyVoiceに関連するモデルは、GitHubでリリースされたトレーニング、推論、微調整コードとともに、ModelscopeとHuggingfaceでオープンソース化されている。
論文参考訳（メタデータ） (2024-07-04T16:49:02Z)
Generative Pre-trained Speech Language Model with Efficient Hierarchical Transformer [39.31849739010572]
textbfGenerative textbfPre-trained textbfSpeech textbfTransformer (GPST)を紹介する。 GPSTは効率的な音声言語モデリングのために設計された階層変換器である。
論文参考訳（メタデータ） (2024-06-03T04:16:30Z)
Natural language guidance of high-fidelity text-to-speech with synthetic annotations [13.642358232817342]
本稿では,話者識別,スタイル,記録条件の様々な側面をラベル付けするスケーラブルな手法を提案する。次に、この手法を45k時間データセットに適用し、音声言語モデルを訓練する。その結果, アクセント, 韻律スタイル, チャネル条件, 音響条件の多岐にわたる高忠実度音声生成が得られた。
論文参考訳（メタデータ） (2024-02-02T21:29:34Z)
SpeechX: Neural Codec Language Model as a Versatile Speech Transformer [57.82364057872905]
SpeechX は、ゼロショット TTS と様々な音声変換タスクが可能な汎用音声生成モデルである。実験結果から, ゼロショットTS, ノイズ抑制, ターゲット話者抽出, 音声除去, 背景雑音の有無による音声編集など, 各種タスクにおけるSpeechXの有効性が示された。
論文参考訳（メタデータ） (2023-08-14T01:01:19Z)
AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。 AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文参考訳（メタデータ） (2023-06-22T14:37:54Z)
NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。 NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文参考訳（メタデータ） (2023-04-18T16:31:59Z)
One Model, Many Languages: Meta-learning for Multilingual Text-to-Speech [3.42658286826597]
本稿では,文脈パラメータ生成のメタラーニング概念を用いた多言語音声合成手法を提案する。本モデルでは,言語間で効率的に情報を共有できることが示され,主観的評価テストにより,ベースラインよりも自然な,正確なコードスイッチング音声を生成する。
論文参考訳（メタデータ） (2020-08-03T10:43:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。