Fugu-MT 論文翻訳(概要): CoVoMix: Advancing Zero-Shot Speech Generation for Human-like Multi-talker Conversations

論文の概要: CoVoMix: Advancing Zero-Shot Speech Generation for Human-like Multi-talker Conversations

arxiv url: http://arxiv.org/abs/2404.06690v1
Date: Wed, 10 Apr 2024 02:32:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-11 15:39:25.705582
Title: CoVoMix: Advancing Zero-Shot Speech Generation for Human-like Multi-talker Conversations
Title（参考訳）: CoVoMix:人間のような多話者会話のためのゼロショット音声生成の改善
Authors: Leying Zhang, Yao Qian, Long Zhou, Shujie Liu, Dongmei Wang, Xiaofei Wang, Midia Yousefi, Yanmin Qian, Jinyu Li, Lei He, Sheng Zhao, Michael Zeng,
Abstract要約: CoVoMixは、ゼロショット、人間ライク、マルチスピーカー、マルチラウンド対話音声生成のための新しいモデルである。対話モデリングと生成の有効性を測定するための総合的なメトリクスセットを考案する。
参考スコア（独自算出の注目度）: 97.75037148056367
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advancements in zero-shot text-to-speech (TTS) modeling have led to significant strides in generating high-fidelity and diverse speech. However, dialogue generation, along with achieving human-like naturalness in speech, continues to be a challenge in the field. In this paper, we introduce CoVoMix: Conversational Voice Mixture Generation, a novel model for zero-shot, human-like, multi-speaker, multi-round dialogue speech generation. CoVoMix is capable of first converting dialogue text into multiple streams of discrete tokens, with each token stream representing semantic information for individual talkers. These token streams are then fed into a flow-matching based acoustic model to generate mixed mel-spectrograms. Finally, the speech waveforms are produced using a HiFi-GAN model. Furthermore, we devise a comprehensive set of metrics for measuring the effectiveness of dialogue modeling and generation. Our experimental results show that CoVoMix can generate dialogues that are not only human-like in their naturalness and coherence but also involve multiple talkers engaging in multiple rounds of conversation. These dialogues, generated within a single channel, are characterized by seamless speech transitions, including overlapping speech, and appropriate paralinguistic behaviors such as laughter. Audio samples are available at https://aka.ms/covomix.
Abstract（参考訳）: ゼロショット音声合成(TTS)モデリングの最近の進歩は、高忠実で多様な音声を生成するために大きな進歩をもたらした。しかし、対話生成は、音声における人間のような自然性を達成するとともに、この分野における課題であり続けている。本稿では,ゼロショット,ヒューマンライク,マルチスピーカ,マルチラウンド音声生成のための新しいモデルであるCoVoMix: Conversational Voice Mixture Generationを紹介する。 CoVoMixは、まず対話テキストを個別トークンの複数のストリームに変換し、各トークンストリームは個々の話者のセマンティック情報を表す。これらのトークンストリームは、フローマッチングベースの音響モデルに入力され、混合メル-スペクトログラムを生成する。最後に、HiFi-GANモデルを用いて音声波形を生成する。さらに、対話モデリングと生成の有効性を測定するための総合的なメトリクスセットを考案する。実験の結果,CoVoMixは自然性やコヒーレンスにおいて人間に似た対話を生成できるだけでなく,複数の話者が複数ラウンドの会話を行うことができることがわかった。これらの対話は、1つのチャンネル内で生成され、重なり合う音声や笑いのような適切なパラ言語的行動を含む、シームレスな音声遷移によって特徴づけられる。オーディオサンプルはhttps://aka.ms/covomix.comで入手できる。

関連論文リスト

TAVID: Text-Driven Audio-Visual Interactive Dialogue Generation [72.46711449668814]
本稿では,対話型顔と会話型音声の両方を同期的に生成する統合フレームワークであるTAVIDを紹介する。本システムの評価は, 顔のリアリズム, 頭部の応答性, ダイアディック相互作用, 音声品質の4つの側面にまたがる。
論文参考訳（メタデータ） (2025-12-23T12:04:23Z)
Towards Human-like Multimodal Conversational Agent by Generating Engaging Speech [10.576716279533404]
本研究では,会話のムードと応答型情報に基づいて,音声応答を生成するヒューマンライクなエージェントを提案する。エージェントが自然言語を生成できるようにするために,音声に着目した新しいマルチセンサ会話データセットを構築した。実験結果から,会話における視覚的・音声的モダリティの両面を利用した係り受け音声生成の有効性が示された。
論文参考訳（メタデータ） (2025-09-18T05:14:10Z)
CoVoMix2: Advancing Zero-Shot Dialogue Generation with Fully Non-Autoregressive Flow Matching [79.0241611035794]
CoVoMix2はゼロショットマルチトーカー対話生成のためのフレームワークである。フローマッチングに基づく生成モデルを用いて、マルチストリームの転写からメルスペクトルを予測する。提案手法は,MoonCastやSesameといった強力なベースラインを,音声品質,話者の整合性,推論速度で上回り,最先端の性能を実現する。
論文参考訳（メタデータ） (2025-06-01T07:51:45Z)
Unispeaker: A Unified Approach for Multimodality-driven Speaker Generation [66.49076386263509]
本稿では,マルチモーダリティ駆動型話者生成のための統一的アプローチであるUniSpeakerを紹介する。 KV-Formerに基づく統一音声アグリゲータを提案し、多様な音声記述のモダリティを共有音声空間にマッピングするためにソフトコントラストロスを適用した。 UniSpeakerはMVCベンチマークを用いて5つのタスクで評価され、実験結果により、UniSpeakerは従来のモダリティ固有のモデルよりも優れていることが示された。
論文参考訳（メタデータ） (2025-01-11T00:47:29Z)
Moshi: a speech-text foundation model for real-time dialogue [78.88479749811376]
現在の音声対話システムは、パイプラインの独立した音声活動検出と音声合成に依存している。そこで本研究では,Moshi Moshiが音声認識と音声合成を実現する方法を紹介する。得られたモデルは、初めてリアルタイムな全音声大言語モデルモダリティである。
論文参考訳（メタデータ） (2024-09-17T17:55:39Z)
Style-Talker: Finetuning Audio Language Model and Style-Based Text-to-Speech Model for Fast Spoken Dialogue Generation [16.724603503894166]
Style-Talkerは、高速音声ダイアログ生成のためのスタイルベースのTSモデルとともに、オーディオLLMを微調整する革新的なフレームワークである。実験の結果,Style-Talkerは対話の自然さとコヒーレンスの両方の観点から,従来のカスケードと音声音声のベースラインを著しく上回ることがわかった。
論文参考訳（メタデータ） (2024-08-13T04:35:11Z)
Let's Go Real Talk: Spoken Dialogue Model for Face-to-Face Conversation [55.043492250775294]
本稿では,新しい対面音声対話モデルを提案する。ユーザ入力から音声視覚音声を処理し、応答として音声視覚音声を生成する。また,最初の大規模マルチモーダル音声対話コーパスであるMultiDialogを紹介する。
論文参考訳（メタデータ） (2024-06-12T04:48:36Z)
Freetalker: Controllable Speech and Text-Driven Gesture Generation Based on Diffusion Models for Enhanced Speaker Naturalness [45.90256126021112]
我々は、自然発生(例えば、共音声ジェスチャー)と非自然発生(例えば、表彰台を動き回る)の両方を生成するための最初のフレームワークであるFreeTalkerを紹介する。具体的には、音声によるジェスチャーとテキストによる動作の統一表現を用いた話者動作生成のための拡散モデルについて訓練する。
論文参考訳（メタデータ） (2024-01-07T13:01:29Z)
Toward Joint Language Modeling for Speech Units and Text [89.32163954508489]
音声単位とテキストの共用言語モデリングについて検討する。音声とテキストの混在度を評価するための自動計測手法を提案する。提案手法を用いて音声単位とテキストを混合することにより,SLUタスクにおける音声のみのベースラインを改良することを示す。
論文参考訳（メタデータ） (2023-10-12T20:53:39Z)
SpeechX: Neural Codec Language Model as a Versatile Speech Transformer [57.82364057872905]
SpeechX は、ゼロショット TTS と様々な音声変換タスクが可能な汎用音声生成モデルである。実験結果から, ゼロショットTS, ノイズ抑制, ターゲット話者抽出, 音声除去, 背景雑音の有無による音声編集など, 各種タスクにおけるSpeechXの有効性が示された。
論文参考訳（メタデータ） (2023-08-14T01:01:19Z)
NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。 NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文参考訳（メタデータ） (2023-04-18T16:31:59Z)
Generative Spoken Dialogue Language Modeling [46.5879150153352]
自然主義音声対話の音声サンプルを生成できる最初の「テキストレス」モデルであるdGSLMを紹介した。これは、教師なし音声単位探索とデュアルトウワートランスアーキテクチャに関する最近の研究を利用している。 2つのチャンネルで音声、笑い、その他のパラ言語的な信号を同時に生成することができ、自然主義的なターンテイクを再現することができる。
論文参考訳（メタデータ） (2022-03-30T17:39:45Z)
Few Shot Adaptive Normalization Driven Multi-Speaker Speech Synthesis [18.812696623555855]
複数発話音声合成手法 (FSM-SS) を提案する。 FSM-SSは、未確認者の入力テキストと参照音声サンプルから、その人のスタイルで数ショットで音声を生成することができる。正規化のアフィンパラメータがエネルギーや基本周波数などの韻律的特徴を捉えるのにどのように役立つかを示す。
論文参考訳（メタデータ） (2020-12-14T04:37:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。