論文の概要: CosyVoice 2: Scalable Streaming Speech Synthesis with Large Language Models
- arxiv url: http://arxiv.org/abs/2412.10117v1
- Date: Fri, 13 Dec 2024 12:59:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:03:31.220366
- Title: CosyVoice 2: Scalable Streaming Speech Synthesis with Large Language Models
- Title(参考訳): CosyVoice 2: 大規模言語モデルを用いたスケーラブルなストリーミング音声合成
- Authors: Zhihao Du, Yuxuan Wang, Qian Chen, Xian Shi, Xiang Lv, Tianyu Zhao, Zhifu Gao, Yexin Yang, Changfeng Gao, Hui Wang, Fan Yu, Huadai Liu, Zhengyan Sheng, Yue Gu, Chong Deng, Wen Wang, Shiliang Zhang, Zhijie Yan, Jingren Zhou,
- Abstract要約: 改良されたストリーミング音声合成モデルCosyVoice 2を提案する。
具体的には,音声トークンのコードブック利用を改善するために,有限スカラー量子化を導入する。
我々は,様々な合成シナリオをサポートするために,チャンク対応因果フローマッチングモデルを開発した。
- 参考スコア(独自算出の注目度): 74.80386066714229
- License:
- Abstract: In our previous work, we introduced CosyVoice, a multilingual speech synthesis model based on supervised discrete speech tokens. By employing progressive semantic decoding with two popular generative models, language models (LMs) and Flow Matching, CosyVoice demonstrated high prosody naturalness, content consistency, and speaker similarity in speech in-context learning. Recently, significant progress has been made in multi-modal large language models (LLMs), where the response latency and real-time factor of speech synthesis play a crucial role in the interactive experience. Therefore, in this report, we present an improved streaming speech synthesis model, CosyVoice 2, which incorporates comprehensive and systematic optimizations. Specifically, we introduce finite-scalar quantization to improve the codebook utilization of speech tokens. For the text-speech LM, we streamline the model architecture to allow direct use of a pre-trained LLM as the backbone. In addition, we develop a chunk-aware causal flow matching model to support various synthesis scenarios, enabling both streaming and non-streaming synthesis within a single model. By training on a large-scale multilingual dataset, CosyVoice 2 achieves human-parity naturalness, minimal response latency, and virtually lossless synthesis quality in the streaming mode. We invite readers to listen to the demos at https://funaudiollm.github.io/cosyvoice2.
- Abstract(参考訳): 前報では,教師付き離散音声トークンに基づく多言語音声合成モデルであるCosyVoiceを紹介した。
言語モデル (LM) とフローマッチング (Flow Matching) という2つの一般的な生成モデルを用いたプログレッシブ・セマンティック・デコーディングを用いて、CosyVoice はテキスト内学習において高い韻律自然性、内容整合性、話者類似性を示した。
近年,マルチモーダル大規模言語モデル (LLM) において,音声合成の応答遅延とリアルタイム要因が対話的体験において重要な役割を担っている。
そこで本稿では,包括的かつ体系的な最適化を取り入れた改良型ストリーミング音声合成モデルCosyVoice 2を提案する。
具体的には,音声トークンのコードブック利用を改善するために,有限スカラー量子化を導入する。
テキスト音声 LM では,事前学習した LLM をバックボーンとして直接使用できるように,モデルアーキテクチャの合理化を図る。
さらに,多様な合成シナリオをサポートするために,チャンク対応因果フローマッチングモデルを構築し,単一のモデル内でのストリーミングと非ストリーミングの合成を可能にする。
大規模なマルチ言語データセットのトレーニングにより、CosyVoice 2は、人間のパリティの自然さ、応答レイテンシの最小化、ストリーミングモードにおける事実上損失のない合成品質を達成する。
デモはhttps://funaudiollm.github.io/cosyvoice2.comで公開されています。
関連論文リスト
- Moshi: a speech-text foundation model for real-time dialogue [78.88479749811376]
現在の音声対話システムは、パイプラインの独立した音声活動検出と音声合成に依存している。
そこで本研究では,Moshi Moshiが音声認識と音声合成を実現する方法を紹介する。
得られたモデルは、初めてリアルタイムな全音声大言語モデルモダリティである。
論文 参考訳(メタデータ) (2024-09-17T17:55:39Z) - Language Model Can Listen While Speaking [17.584201137311286]
聴取時言語モデル (LSLM) は、聴取チャネルと発声チャネルの両方を備えたエンドツーエンドシステムである。
本研究は,既存のシステムに最小限の影響を伴って,重複通信を実現するLSLMの能力を強調した。
論文 参考訳(メタデータ) (2024-08-05T16:47:22Z) - FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs [63.8261207950923]
FunAudioLLMは、人間と大規模言語モデル(LLM)の間の自然な音声相互作用を強化するために設計されたモデルファミリーである
中心となる2つの革新的なモデルとして、多言語音声認識、感情認識、音声イベント検出を処理するSenseVoiceと、複数の言語、音色、話し方、話者識別を制御した自然言語生成を容易にするCosyVoiceがある。
SenseVoiceとCosyVoiceに関連するモデルは、GitHubでリリースされたトレーニング、推論、微調整コードとともに、ModelscopeとHuggingfaceでオープンソース化されている。
論文 参考訳(メタデータ) (2024-07-04T16:49:02Z) - SeamlessExpressiveLM: Speech Language Model for Expressive Speech-to-Speech Translation with Chain-of-Thought [12.54786997634534]
本研究は,S2STのための単一言語モデルであるSeamlessExpressiveLMを提案する。
我々は、複雑なソースからターゲットへの音声マッピングを、チェーン・オブ・シークレット・プロンプトで中間生成ステップに分解する。
モデルはまずターゲットのセマンティックコンテンツを翻訳し、次に話者スタイルをマルチストリーム音響ユニットに転送する。
論文 参考訳(メタデータ) (2024-05-30T18:28:31Z) - TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - HierSpeech++: Bridging the Gap between Semantic and Acoustic
Representation of Speech by Hierarchical Variational Inference for Zero-shot
Speech Synthesis [39.892633589217326]
大規模言語モデル(LLM)に基づく音声合成は、ゼロショット音声合成において広く採用されている。
テキスト音声変換(TTS)と音声変換(VC)のための高速で強力なゼロショット音声合成器であるHierSpeech++を提案する。
論文 参考訳(メタデータ) (2023-11-21T09:07:11Z) - On decoder-only architecture for speech-to-text and large language model
integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。
我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2023-07-08T06:47:58Z) - How Generative Spoken Language Modeling Encodes Noisy Speech:
Investigation from Phonetics to Syntactics [33.070158866023]
生成音声言語モデリング(GSLM)は、音声分析と合成のための音素ではなく、データから派生した学習シンボルを使用する。
本稿では,GSLMの音声・音声レベルにおける符号化と復号化の有効性について述べる。
論文 参考訳(メタデータ) (2023-06-01T14:07:19Z) - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。
NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-04-18T16:31:59Z) - One Model, Many Languages: Meta-learning for Multilingual Text-to-Speech [3.42658286826597]
本稿では,文脈パラメータ生成のメタラーニング概念を用いた多言語音声合成手法を提案する。
本モデルでは,言語間で効率的に情報を共有できることが示され,主観的評価テストにより,ベースラインよりも自然な,正確なコードスイッチング音声を生成する。
論文 参考訳(メタデータ) (2020-08-03T10:43:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。