論文の概要: SynParaSpeech: Automated Synthesis of Paralinguistic Datasets for Speech Generation and Understanding
- arxiv url: http://arxiv.org/abs/2509.14946v3
- Date: Sun, 28 Sep 2025 15:08:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 14:13:47.536945
- Title: SynParaSpeech: Automated Synthesis of Paralinguistic Datasets for Speech Generation and Understanding
- Title(参考訳): SynParaSpeech:音声生成と理解のためのパラ言語データセットの自動合成
- Authors: Bingsong Bai, Qihang Lu, Wenbing Yang, Zihan Sun, Yueran Hou, Peilei Jia, Songbai Pu, Ruibo Fu, Yingming Gao, Ya Li, Jun Gao,
- Abstract要約: 笑いやため息のようなパラ言語的な音は、より現実的で魅力的なスピーチを合成するのに不可欠である。
大規模パラ言語データを生成するための自動フレームワークを提案し,それをSynParaSpeechデータセットの構築に適用する。
データセットは6つのパラ言語カテゴリーで構成され、118.75時間のデータと正確なタイムスタンプは、いずれも自然な会話音声に由来する。
- 参考スコア(独自算出の注目度): 17.39687276110065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Paralinguistic sounds, like laughter and sighs, are crucial for synthesizing more realistic and engaging speech. However, existing methods typically depend on proprietary datasets, while publicly available resources often suffer from incomplete speech, inaccurate or missing timestamps, and limited real-world relevance. To address these problems, we propose an automated framework for generating large-scale paralinguistic data and apply it to construct the SynParaSpeech dataset. The dataset comprises 6 paralinguistic categories with 118.75 hours of data and precise timestamps, all derived from natural conversational speech. Our contributions lie in introducing the first automated method for constructing large-scale paralinguistic datasets and releasing the SynParaSpeech corpus, which advances speech generation through more natural paralinguistic synthesis and enhances speech understanding by improving paralinguistic event detection. The dataset and audio samples are available at https://github.com/ShawnPi233/SynParaSpeech.
- Abstract(参考訳): 笑いやため息のようなパラ言語的な音は、より現実的で魅力的なスピーチを合成するのに不可欠である。
しかし、既存の手法はプロプライエタリなデータセットに依存することが多いが、一般に利用可能なリソースは不完全なスピーチ、不正確なタイムスタンプや欠落したタイムスタンプ、現実の関連性に悩まされることが多い。
これらの問題に対処するために,大規模パラ言語データを生成するための自動フレームワークを提案し,それをSynParaSpeechデータセットの構築に適用する。
データセットは6つのパラ言語カテゴリーで構成され、118.75時間のデータと正確なタイムスタンプは、いずれも自然な会話音声に由来する。
我々の貢献は、大規模なパラ言語的データセットを構築するための最初の自動化手法を導入し、SynParaSpeechコーパスをリリースすることにある。
データセットとオーディオサンプルはhttps://github.com/ShawnPi233/SynParaSpeechで公開されている。
関連論文リスト
- NVSpeech: An Integrated and Scalable Pipeline for Human-Like Speech Modeling with Paralinguistic Vocalizations [7.55995559331834]
パラ言語的発声は自然な音声通信に不可欠である。
NVSpeechはパラ言語的発声の認識と合成を橋渡しする。
NVSpeechは、マンダリンで表現力のある音声モデリングのための、オープンで大規模な単語レベルの注釈付きパイプラインを提供する。
論文 参考訳(メタデータ) (2025-08-06T08:25:26Z) - Unlocking Speech Instruction Data Potential with Query Rewriting [26.134056897363557]
エンド・ツー・エンドの大規模言語モデル(textbfLSLMs)は応答待ち時間と音声理解能力に強い可能性を示す。
しかし、データセットの欠如や訓練タスクの偏りが強かったため、音声指示に従う能力は十分には実現されていない。
合成音声のアノテートと検証に複数のエージェントを用いたマルチLLM知識融合によるクエリ書き換えフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-11T13:55:45Z) - Scaling Speech-Text Pre-training with Synthetic Interleaved Data [31.77653849518526]
音声言語モデル(SpeechLM)は音声入力を受け入れ、音声出力を生成し、より自然な人間とコンピュータの相互作用を可能にする。
従来のSpeechLMの開発手法は、教師なし音声データとパラレル音声テキストデータの可用性の制限によって制約されている。
本稿では,テキストコーパスから得られた大規模合成インターリーブデータを活用することによって,音声テキスト事前学習のスケールアップを行う手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T17:19:09Z) - DisfluencySpeech -- Single-Speaker Conversational Speech Dataset with Paralanguage [7.096838107088313]
DisfluencySpeechは、パラ言語でラベル付けされた英語の音声データセットである。
Switchboard-1 電話音声コーパス(Switchboard)から10時間近い表現的発話を再現する1つの話者
論文 参考訳(メタデータ) (2024-06-13T05:23:22Z) - EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech
Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。
このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。
自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文 参考訳(メタデータ) (2023-08-10T17:41:19Z) - ContextSpeech: Expressive and Efficient Text-to-Speech for Paragraph
Reading [65.88161811719353]
本研究は、軽量で効果的なテキスト音声合成システムであるContextSpeechを開発する。
まず,グローバルテキストと音声コンテキストを文エンコーディングに組み込むメモリキャッシュ再帰機構を設計する。
我々は,グローバルな文脈拡張の範囲を広げるため,階層的に構造化されたテキストセマンティクスを構築した。
実験の結果,ContextSpeechは段落読解における音質と韻律を競争モデル効率で著しく改善することがわかった。
論文 参考訳(メタデータ) (2023-07-03T06:55:03Z) - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。
NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-04-18T16:31:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。