論文の概要: NVSpeech: An Integrated and Scalable Pipeline for Human-Like Speech Modeling with Paralinguistic Vocalizations
- arxiv url: http://arxiv.org/abs/2508.04195v1
- Date: Wed, 06 Aug 2025 08:25:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.625272
- Title: NVSpeech: An Integrated and Scalable Pipeline for Human-Like Speech Modeling with Paralinguistic Vocalizations
- Title(参考訳): NVSpeech: パラ言語ボカライゼーションを用いたヒューマンライクな音声モデリングのための統合的でスケーラブルなパイプライン
- Authors: Huan Liao, Qinke Ni, Yuancheng Wang, Yiheng Lu, Haoyue Zhan, Pengyuan Xie, Qiang Zhang, Zhizheng Wu,
- Abstract要約: パラ言語的発声は自然な音声通信に不可欠である。
NVSpeechはパラ言語的発声の認識と合成を橋渡しする。
NVSpeechは、マンダリンで表現力のある音声モデリングのための、オープンで大規模な単語レベルの注釈付きパイプラインを提供する。
- 参考スコア(独自算出の注目度): 7.55995559331834
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Paralinguistic vocalizations-including non-verbal sounds like laughter and breathing, as well as lexicalized interjections such as "uhm" and "oh"-are integral to natural spoken communication. Despite their importance in conveying affect, intent, and interactional cues, such cues remain largely overlooked in conventional automatic speech recognition (ASR) and text-to-speech (TTS) systems. We present NVSpeech, an integrated and scalable pipeline that bridges the recognition and synthesis of paralinguistic vocalizations, encompassing dataset construction, ASR modeling, and controllable TTS. (1) We introduce a manually annotated dataset of 48,430 human-spoken utterances with 18 word-level paralinguistic categories. (2) We develop the paralinguistic-aware ASR model, which treats paralinguistic cues as inline decodable tokens (e.g., "You're so funny [Laughter]"), enabling joint lexical and non-verbal transcription. This model is then used to automatically annotate a large corpus, the first large-scale Chinese dataset of 174,179 utterances (573 hours) with word-level alignment and paralingustic cues. (3) We finetune zero-shot TTS models on both human- and auto-labeled data to enable explicit control over paralinguistic vocalizations, allowing context-aware insertion at arbitrary token positions for human-like speech synthesis. By unifying the recognition and generation of paralinguistic vocalizations, NVSpeech offers the first open, large-scale, word-level annotated pipeline for expressive speech modeling in Mandarin, integrating recognition and synthesis in a scalable and controllable manner. Dataset and audio demos are available at https://nvspeech170k.github.io/.
- Abstract(参考訳): 笑いや呼吸のような非言語音を含むパラ言語的発声は、"uhm"や"oh"のような語彙化された介在物は、自然な音声通信に不可欠である。
感情、意図、相互作用の手がかりを伝えることの重要性にもかかわらず、従来の自動音声認識(ASR)や音声合成(TTS)システムではそのような手がかりはほとんど見落とされ続けている。
NVSpeechは、パラ言語的発声の認識と合成を橋渡しし、データセットの構築、ASRモデリング、制御可能なTSを包含する、統合的でスケーラブルなパイプラインである。
1)18の単語レベルパラ言語カテゴリーを持つ48,430の人文発話を手動でアノテートしたデータセットを導入する。
2) パラ言語的手がかりをインラインデオード可能なトークンとして扱うパラ言語論的ASRモデル(例:「あなたはとても面白い(Laughter)」)を開発した。
このモデルは、単語レベルのアライメントとパラリンガティックキューを備えた174,179発話(573時間)の大規模な中国語データセットである、大きなコーパスの自動注釈に使用される。
(3)人間と自動ラベルデータの両方でゼロショットTSモデルを微調整し、パラ言語的発声の明示的な制御を可能にし、人間のような音声合成のための任意のトークン位置での文脈認識挿入を可能にする。
パラ言語的発声の認識と生成を統一することにより、NVSpeechはマンダリンにおける表現型音声モデリングのための、オープンで大規模で単語レベルの注釈付きパイプラインを初めて提供し、認識と合成をスケーラブルで制御可能な方法で統合する。
データセットとオーディオのデモはhttps://nvspeech170k.github.io/で公開されている。
関連論文リスト
- NonverbalTTS: A Public English Corpus of Text-Aligned Nonverbal Vocalizations with Emotion Annotations for Text-to-Speech [0.0]
非バーバルTTS(NonverbalTTS、NVTTS)は、10種類のNV(笑い、うず)と8つの感情カテゴリーで注釈付けされた17時間のオープンアクセスデータセットである。
自動音声認識(ASR)、NVタグ付け、感情分類、融合アルゴリズムを統合し、複数のアノテータからの書き起こしをマージする包括的パイプラインを提案する。
論文 参考訳(メタデータ) (2025-07-17T14:17:40Z) - CosyVoice 3: Towards In-the-wild Speech Generation via Scaling-up and Post-training [70.31925012315064]
野生におけるゼロショット多言語音声合成のための改良モデルであるCosyVoice 3を提案する。
CosyVoice 3の主な特徴は、韻律自然性を改善する新しい音声トークンである。
データは1万時間から100万時間に拡張され、9つの言語と18の中国語方言を含んでいる。
論文 参考訳(メタデータ) (2025-05-23T07:55:21Z) - CosyVoice 2: Scalable Streaming Speech Synthesis with Large Language Models [74.80386066714229]
改良されたストリーミング音声合成モデルCosyVoice 2を提案する。
具体的には,音声トークンのコードブック利用を改善するために,有限スカラー量子化を導入する。
我々は,様々な合成シナリオをサポートするために,チャンク対応因果フローマッチングモデルを開発した。
論文 参考訳(メタデータ) (2024-12-13T12:59:39Z) - Scaling Speech-Text Pre-training with Synthetic Interleaved Data [31.77653849518526]
音声言語モデル(SpeechLM)は音声入力を受け入れ、音声出力を生成し、より自然な人間とコンピュータの相互作用を可能にする。
従来のSpeechLMの開発手法は、教師なし音声データとパラレル音声テキストデータの可用性の制限によって制約されている。
本稿では,テキストコーパスから得られた大規模合成インターリーブデータを活用することによって,音声テキスト事前学習のスケールアップを行う手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T17:19:09Z) - Coding Speech through Vocal Tract Kinematics [5.0751585360524425]
調音特徴は声道調音器のキネマティックな形状と音源の特徴の痕跡であり、直感的に解釈可能で制御可能である。
話者埋め込みは音節から効果的に切り離され、アクセントを保ったゼロショット音声変換が可能となる。
論文 参考訳(メタデータ) (2024-06-18T18:38:17Z) - DisfluencySpeech -- Single-Speaker Conversational Speech Dataset with Paralanguage [7.096838107088313]
DisfluencySpeechは、パラ言語でラベル付けされた英語の音声データセットである。
Switchboard-1 電話音声コーパス(Switchboard)から10時間近い表現的発話を再現する1つの話者
論文 参考訳(メタデータ) (2024-06-13T05:23:22Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech
Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。
このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。
自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文 参考訳(メタデータ) (2023-08-10T17:41:19Z) - Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。
音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。
提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文 参考訳(メタデータ) (2023-08-03T15:47:04Z) - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。
NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-04-18T16:31:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。