Fugu-MT 論文翻訳(概要): MoonCast: High-Quality Zero-Shot Podcast Generation

論文の概要: MoonCast: High-Quality Zero-Shot Podcast Generation

arxiv url: http://arxiv.org/abs/2503.14345v1
Date: Tue, 18 Mar 2025 15:25:08 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-19 16:29:13.162067
Title: MoonCast: High-Quality Zero-Shot Podcast Generation
Title（参考訳）: MoonCast:高性能ゼロショットポッドキャスト
Authors: Zeqian Ju, Dongchao Yang, Jianwei Yu, Kai Shen, Yichong Leng, Zhengtao Wang, Xu Tan, Xinyu Zhou, Tao Qin, Xiangyang Li,
Abstract要約: MoonCastは高品質のゼロショットポッドキャスト生成ソリューションである。テキストのみのソースから自然なポッドキャストスタイルの音声を合成することを目的としている。実験では、MoonCastはベースラインを上回っている。
参考スコア（独自算出の注目度）: 81.29927724674602
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advances in text-to-speech synthesis have achieved notable success in generating high-quality short utterances for individual speakers. However, these systems still face challenges when extending their capabilities to long, multi-speaker, and spontaneous dialogues, typical of real-world scenarios such as podcasts. These limitations arise from two primary challenges: 1) long speech: podcasts typically span several minutes, exceeding the upper limit of most existing work; 2) spontaneity: podcasts are marked by their spontaneous, oral nature, which sharply contrasts with formal, written contexts; existing works often fall short in capturing this spontaneity. In this paper, we propose MoonCast, a solution for high-quality zero-shot podcast generation, aiming to synthesize natural podcast-style speech from text-only sources (e.g., stories, technical reports, news in TXT, PDF, or Web URL formats) using the voices of unseen speakers. To generate long audio, we adopt a long-context language model-based audio modeling approach utilizing large-scale long-context speech data. To enhance spontaneity, we utilize a podcast generation module to generate scripts with spontaneous details, which have been empirically shown to be as crucial as the text-to-speech modeling itself. Experiments demonstrate that MoonCast outperforms baselines, with particularly notable improvements in spontaneity and coherence.
Abstract（参考訳）: 近年の音声合成の進歩は、個々の話者に対して高品質な短い発話を生成することに顕著な成功を収めている。しかし、これらのシステムは、ポッドキャストのような現実世界のシナリオに典型的な、長々とした、複数話者、自発的な対話にまで機能を拡張する際にも、依然として課題に直面している。これらの制限は2つの主要な課題から生じます。 1) 長話:通常、ポッドキャストは、ほとんどの既存の作品の上限を超える数分間に及ぶ。 2) 自発性: ポッドキャストは自発性, 口頭性, 形式的, 書面的文脈と強く対比される。本稿では,高品質なゼロショットポッドキャスト生成ソリューションであるMoonCastを提案する。テキストのみのソース(ストーリー,技術レポート,TXTでのニュース,PDF,Web URLフォーマットなど)から,未知の話者の声を用いて,自然なポッドキャストスタイルの音声を合成することを目的としている。長文音声を生成するために,大規模長文音声データを用いた長文言語モデルに基づく音声モデリング手法を採用する。自発性を高めるために,ポッドキャスト生成モジュールを用いて自発性のあるスクリプトを生成する。実験により、MoonCastは、特に自発性とコヒーレンスの顕著な改善により、ベースラインを上回っていることが示された。

関連論文リスト

LoRP-TTS: Low-Rank Personalized Text-To-Speech [0.0]
音声合成モデルは、テキストを自然な音声に変換する。 Low-Rank Adaptation (LoRA) は、ノイズの多い環境で自然発話の単一記録をプロンプトとしてうまく利用することができる。
論文参考訳（メタデータ） (2025-02-11T14:00:12Z)
Long-Form Speech Generation with Spoken Language Models [64.29591880693468]
SpeechSSMは、テキスト中間子なしで1つの復号セッションで長い形式の音声を学習し、サンプリングする。新しい埋め込みベースとLLM-judgedメトリクス、長さと時間による品質測定、長文音声処理と生成のための新しいベンチマークであるLibriSpeech-Long。
論文参考訳（メタデータ） (2024-12-24T18:56:46Z)
CosyVoice 2: Scalable Streaming Speech Synthesis with Large Language Models [74.80386066714229]
改良されたストリーミング音声合成モデルCosyVoice 2を提案する。具体的には,音声トークンのコードブック利用を改善するために,有限スカラー量子化を導入する。我々は,様々な合成シナリオをサポートするために,チャンク対応因果フローマッチングモデルを開発した。
論文参考訳（メタデータ） (2024-12-13T12:59:39Z)
Moshi: a speech-text foundation model for real-time dialogue [78.88479749811376]
現在の音声対話システムは、パイプラインの独立した音声活動検出と音声合成に依存している。そこで本研究では,Moshi Moshiが音声認識と音声合成を実現する方法を紹介する。得られたモデルは、初めてリアルタイムな全音声大言語モデルモダリティである。
論文参考訳（メタデータ） (2024-09-17T17:55:39Z)
CoVoMix: Advancing Zero-Shot Speech Generation for Human-like Multi-talker Conversations [97.75037148056367]
CoVoMixは、ゼロショット、人間ライク、マルチスピーカー、マルチラウンド対話音声生成のための新しいモデルである。対話モデリングと生成の有効性を測定するための総合的なメトリクスセットを考案する。
論文参考訳（メタデータ） (2024-04-10T02:32:58Z)
NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。 NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文参考訳（メタデータ） (2023-04-18T16:31:59Z)
A Two-Phase Approach for Abstractive Podcast Summarization [18.35061145103997]
ポッドキャストの要約は他のデータフォーマットの要約とは異なる。文選択とSeq2seq学習という2段階の手法を提案する。提案手法は,ROUGEに基づく測定と人的評価の両面で有望な結果をもたらす。
論文参考訳（メタデータ） (2020-11-16T21:31:28Z)
A Baseline Analysis for Podcast Abstractive Summarization [18.35061145103997]
本稿では,Spotify Podcastデータセットを用いたポッドキャスト要約のベースライン解析について述べる。研究者が現在の最先端の事前訓練モデルを理解するのを助け、より良いモデルを作るための基盤を構築することを目的としている。
論文参考訳（メタデータ） (2020-08-24T18:38:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。