論文の概要: NonverbalTTS: A Public English Corpus of Text-Aligned Nonverbal Vocalizations with Emotion Annotations for Text-to-Speech
- arxiv url: http://arxiv.org/abs/2507.13155v1
- Date: Thu, 17 Jul 2025 14:17:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.532654
- Title: NonverbalTTS: A Public English Corpus of Text-Aligned Nonverbal Vocalizations with Emotion Annotations for Text-to-Speech
- Title(参考訳): NonverbalTTS: テキスト・トゥ・スペルのための感情アノテーション付きテキスト・アライズド・ノンバーバル・ボーカライゼーションの公開英語コーパス
- Authors: Maksim Borisov, Egor Spirin, Daria Diatlova,
- Abstract要約: 非バーバルTTS(NonverbalTTS、NVTTS)は、10種類のNV(笑い、うず)と8つの感情カテゴリーで注釈付けされた17時間のオープンアクセスデータセットである。
自動音声認識(ASR)、NVタグ付け、感情分類、融合アルゴリズムを統合し、複数のアノテータからの書き起こしをマージする包括的パイプラインを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current expressive speech synthesis models are constrained by the limited availability of open-source datasets containing diverse nonverbal vocalizations (NVs). In this work, we introduce NonverbalTTS (NVTTS), a 17-hour open-access dataset annotated with 10 types of NVs (e.g., laughter, coughs) and 8 emotional categories. The dataset is derived from popular sources, VoxCeleb and Expresso, using automated detection followed by human validation. We propose a comprehensive pipeline that integrates automatic speech recognition (ASR), NV tagging, emotion classification, and a fusion algorithm to merge transcriptions from multiple annotators. Fine-tuning open-source text-to-speech (TTS) models on the NVTTS dataset achieves parity with closed-source systems such as CosyVoice2, as measured by both human evaluation and automatic metrics, including speaker similarity and NV fidelity. By releasing NVTTS and its accompanying annotation guidelines, we address a key bottleneck in expressive TTS research. The dataset is available at https://huggingface.co/datasets/deepvk/NonverbalTTS.
- Abstract(参考訳): 現在の表現型音声合成モデルは、多種多様な非言語発声(NV)を含むオープンソースデータセットの可用性の制限によって制約されている。
本研究では,NonverbalTTS(NVTTS,NonverbalTTS,NVTTS)について紹介する。
データセットはVoxCelebとExpressoという人気のソースから派生したもので、自動検出と人間の検証が続く。
自動音声認識(ASR)、NVタグ付け、感情分類、融合アルゴリズムを統合し、複数のアノテータからの書き起こしをマージする包括的パイプラインを提案する。
NVTTSデータセット上の微細チューニングされたオープンソーステキスト音声(TTS)モデルは、話者類似性やNVフィデリティなど、人間の評価と自動測定の両方によって測定される、CosyVoice2のようなクローズドソースシステムと同等性を達成する。
NVTTSとその随伴するガイドラインをリリースすることにより、表現的TS研究における重要なボトルネックに対処する。
データセットはhttps://huggingface.co/datasets/deepvk/NonverbalTTSで公開されている。
関連論文リスト
- NVSpeech: An Integrated and Scalable Pipeline for Human-Like Speech Modeling with Paralinguistic Vocalizations [7.55995559331834]
パラ言語的発声は自然な音声通信に不可欠である。
NVSpeechはパラ言語的発声の認識と合成を橋渡しする。
NVSpeechは、マンダリンで表現力のある音声モデリングのための、オープンで大規模な単語レベルの注釈付きパイプラインを提供する。
論文 参考訳(メタデータ) (2025-08-06T08:25:26Z) - EmergentTTS-Eval: Evaluating TTS Models on Complex Prosodic, Expressiveness, and Linguistic Challenges Using Model-as-a-Judge [25.51206687438354]
我々は6つのTSシナリオをカバーする包括的なベンチマークである$textitEmergentTTS-Evalを紹介した。
我々のフレームワークはテストケースの生成と評価の両方を自動化するので、ベンチマークが容易にアクセスできます。
我々は、EmergentTTS-Eval上で、11Labs、Deepgram、OpenAIの4o-mini-TTSといった最先端のオープンソースおよびプロプライエタリなTSシステムを評価した。
論文 参考訳(メタデータ) (2025-05-29T02:36:24Z) - Spark-TTS: An Efficient LLM-Based Text-to-Speech Model with Single-Stream Decoupled Speech Tokens [31.575335190916995]
本稿では,音声を2つの補完トークンタイプに分解する単一ストリーム音声であるBiCodecを利用した新しいシステムであるSpark-TTSを紹介する。
制御可能なTSの研究を容易にするために,包括的な属性アノテーションを備えた10000時間データセットであるVoxBoxを紹介した。
論文 参考訳(メタデータ) (2025-03-03T16:23:10Z) - Hard-Synth: Synthesizing Diverse Hard Samples for ASR using Zero-Shot TTS and LLM [48.71951982716363]
テキスト音声合成(TTS)モデルは自動音声認識(ASR)システムを強化するために広く採用されている。
我々は,大規模言語モデル(LLM)と高度なゼロショットTSを利用する新しいASRデータ拡張手法であるHard-Synthを提案する。
我々のアプローチでは、追加のテキストデータに頼ることなく、書き直しによる多様なドメイン内テキストを生成するためにLLMを用いる。
論文 参考訳(メタデータ) (2024-11-20T09:49:37Z) - Algorithms For Automatic Accentuation And Transcription Of Russian Texts In Speech Recognition Systems [0.0]
本稿では,ロシア語テキストの自動アクセント化と音韻転写のためのルールベースシステムの概要について述べる。
開発したシステムの2つの部分、アクセントと文字起こしは、入力句の正しい音韻表現を実現するために異なるアプローチを用いている。
開発ツールキットはPython言語で書かれており、興味のある研究者はGitHubからアクセスできる。
論文 参考訳(メタデータ) (2024-10-03T14:43:43Z) - Text-To-Speech Synthesis In The Wild [76.71096751337888]
我々は、VoxCeleb1データセットに適用された完全に自動化されたパイプラインを通じて生成されるTS In the Wildデータセットを紹介します。
TITW-Hardは、生のVoxCeleb1データの転写、セグメンテーション、選択から派生したTITW-Hardと、DNSMOSに基づいたさらなる拡張とデータ選択を含むTITW-Easyの2つのトレーニングセットで構成されている。
論文 参考訳(メタデータ) (2024-09-13T10:58:55Z) - EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech
Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。
このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。
自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文 参考訳(メタデータ) (2023-08-10T17:41:19Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - Discrete Cross-Modal Alignment Enables Zero-Shot Speech Translation [71.35243644890537]
エンドツーエンド音声翻訳(ST)は、中間転写を生成することなく、ソース言語音声を対象言語テキストに翻訳することを目的としている。
既存のゼロショット法は、音声とテキストの2つのモダリティを共有意味空間に合わせることに失敗する。
音声とテキストの両方のモダリティに適合する離散語彙空間を共用した離散的クロスモーダルアライメント(DCMA)法を提案する。
論文 参考訳(メタデータ) (2022-10-18T03:06:47Z) - Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for
Text-to-Speech [88.22544315633687]
ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。
オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。
3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-05T10:50:34Z) - Guided-TTS:Text-to-Speech with Untranscribed Speech [22.548875263927396]
我々は、未転写音声データから音声を生成することを学習する高品質TTSモデルである Guided-TTS を提案する。
音声合成において,無条件DDPMの生成過程を音素分類を用いて導き,メル-スペクトログラムを生成する。
論文 参考訳(メタデータ) (2021-11-23T10:05:05Z) - GraphSpeech: Syntax-Aware Graph Attention Network For Neural Speech
Synthesis [79.1885389845874]
Transformer-based end-to-end text-to-speech synthesis (TTS)は、このような実装の成功例の一つである。
本稿では,グラフニューラルネットワークフレームワークで定式化された新しいニューラルネットワークモデルであるGraphSpeechを提案する。
実験により、GraphSpeechは、発話のスペクトルと韻律レンダリングの点で、Transformer TTSベースラインを一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2020-10-23T14:14:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。