論文の概要: NaturalVoices: A Large-Scale, Spontaneous and Emotional Podcast Dataset for Voice Conversion
- arxiv url: http://arxiv.org/abs/2511.00256v1
- Date: Fri, 31 Oct 2025 21:00:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.694076
- Title: NaturalVoices: A Large-Scale, Spontaneous and Emotional Podcast Dataset for Voice Conversion
- Title(参考訳): NaturalVoices: 音声変換のための大規模・自発・情緒的なポッドキャストデータセット
- Authors: Zongyang Du, Shreeram Suresh Chandra, Ismail Rasim Ulgen, Aurosweta Mahapatra, Ali N. Salman, Carlos Busso, Berrak Sisman,
- Abstract要約: NaturalVoices (NV) は感情認識音声変換用に設計された最初の大規模自発的ポッドキャストデータセットである。
5,049時間の自発的なポッドキャスト記録と感情(カテゴリーと属性に基づく)の自動アノテーション、音声品質、文字起こし、話者識別、音声イベントを含む。
このデータセットは、数千の話者、多様なトピック、そして自然な話し方における表現力のある感情の変化をキャプチャする。
- 参考スコア(独自算出の注目度): 25.896735200803537
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Everyday speech conveys far more than words, it reflects who we are, how we feel, and the circumstances surrounding our interactions. Yet, most existing speech datasets are acted, limited in scale, and fail to capture the expressive richness of real-life communication. With the rise of large neural networks, several large-scale speech corpora have emerged and been widely adopted across various speech processing tasks. However, the field of voice conversion (VC) still lacks large-scale, expressive, and real-life speech resources suitable for modeling natural prosody and emotion. To fill this gap, we release NaturalVoices (NV), the first large-scale spontaneous podcast dataset specifically designed for emotion-aware voice conversion. It comprises 5,049 hours of spontaneous podcast recordings with automatic annotations for emotion (categorical and attribute-based), speech quality, transcripts, speaker identity, and sound events. The dataset captures expressive emotional variation across thousands of speakers, diverse topics, and natural speaking styles. We also provide an open-source pipeline with modular annotation tools and flexible filtering, enabling researchers to construct customized subsets for a wide range of VC tasks. Experiments demonstrate that NaturalVoices supports the development of robust and generalizable VC models capable of producing natural, expressive speech, while revealing limitations of current architectures when applied to large-scale spontaneous data. These results suggest that NaturalVoices is both a valuable resource and a challenging benchmark for advancing the field of voice conversion. Dataset is available at: https://huggingface.co/JHU-SmileLab
- Abstract(参考訳): 毎日のスピーチは、言葉よりもはるかに多くを伝える。それは、私たちが誰であるか、どのように感じているか、そして私たちの相互作用を取り巻く状況を反映している。
しかし、既存のほとんどの音声データセットは実行され、規模は限られており、実生活におけるコミュニケーションの表現豊かさを捉えられていない。
大規模ニューラルネットワークの台頭に伴い、大規模音声コーパスが出現し、様々な音声処理タスクに広く採用されている。
しかし、音声変換(VC)の分野には、自然の韻律や感情をモデル化するのに適した大規模で表現力のある実生活の音声資源がまだ欠けている。
このギャップを埋めるために、感情認識型音声変換に特化した、最初の大規模自発的ポッドキャストデータセットであるNaturalVoices (NV) をリリースする。
5,049時間の自発的なポッドキャスト記録と感情(カテゴリーと属性に基づく)の自動アノテーション、音声品質、文字起こし、話者識別、音声イベントを含む。
このデータセットは、数千の話者、多様なトピック、そして自然な話し方における表現力のある感情の変化をキャプチャする。
モジュール形式のアノテーションツールとフレキシブルなフィルタリングを備えたオープンソースのパイプラインも提供しています。
実験により、NaturalVoicesは、自然で表現力のある音声を生成できる堅牢で一般化可能なVCモデルの開発を支援しながら、大規模自然データに適用した場合の現在のアーキテクチャの限界を明らかにしている。
これらの結果から,NaturalVoicesは貴重な資源であり,音声変換の分野を推し進めるための挑戦的なベンチマークであることが示唆された。
Dataset は https://huggingface.co/JHU-SmileLab
関連論文リスト
- MultiVox: A Benchmark for Evaluating Voice Assistants for Multimodal Interactions [70.93364531054273]
音声と視覚を融合させる音声アシスタントの能力を評価する最初のベンチマークであるMultiVoxを紹介する。
具体的には、MultiVoxには、多種多様なパラ言語的特徴を包含する1000の人間の注釈付き音声対話が含まれている。
10の最先端モデルに対する我々の評価は、人間はこれらのタスクに長けているが、現在のモデルは、常に文脈的に接地された応答を生成するのに苦労していることを示している。
論文 参考訳(メタデータ) (2025-07-14T23:20:42Z) - CosyVoice 3: Towards In-the-wild Speech Generation via Scaling-up and Post-training [70.31925012315064]
野生におけるゼロショット多言語音声合成のための改良モデルであるCosyVoice 3を提案する。
CosyVoice 3の主な特徴は、韻律自然性を改善する新しい音声トークンである。
データは1万時間から100万時間に拡張され、9つの言語と18の中国語方言を含んでいる。
論文 参考訳(メタデータ) (2025-05-23T07:55:21Z) - MoonCast: High-Quality Zero-Shot Podcast Generation [81.29927724674602]
MoonCastは高品質のゼロショットポッドキャスト生成ソリューションである。
テキストのみのソースから自然なポッドキャストスタイルの音声を合成することを目的としている。
実験では、MoonCastはベースラインを上回っている。
論文 参考訳(メタデータ) (2025-03-18T15:25:08Z) - FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs [63.8261207950923]
FunAudioLLMは、人間と大規模言語モデル(LLM)の間の自然な音声相互作用を強化するために設計されたモデルファミリーである
中心となる2つの革新的なモデルとして、多言語音声認識、感情認識、音声イベント検出を処理するSenseVoiceと、複数の言語、音色、話し方、話者識別を制御した自然言語生成を容易にするCosyVoiceがある。
SenseVoiceとCosyVoiceに関連するモデルは、GitHubでリリースされたトレーニング、推論、微調整コードとともに、ModelscopeとHuggingfaceでオープンソース化されている。
論文 参考訳(メタデータ) (2024-07-04T16:49:02Z) - Natural language guidance of high-fidelity text-to-speech with synthetic
annotations [13.642358232817342]
本稿では,話者識別,スタイル,記録条件の様々な側面をラベル付けするスケーラブルな手法を提案する。
次に、この手法を45k時間データセットに適用し、音声言語モデルを訓練する。
その結果, アクセント, 韻律スタイル, チャネル条件, 音響条件の多岐にわたる高忠実度音声生成が得られた。
論文 参考訳(メタデータ) (2024-02-02T21:29:34Z) - Audio is all in one: speech-driven gesture synthetics using WavLM pre-trained model [2.827070255699381]
diffmotion-v2は、WavLM事前学習モデルを用いた音声条件拡散に基づく生成モデルである。
生音声のみを使用して、個人的でスタイリングされたフルボディの音声合成ジェスチャを生成することができる。
論文 参考訳(メタデータ) (2023-08-11T08:03:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。