論文の概要: CapSpeech: Enabling Downstream Applications in Style-Captioned Text-to-Speech
- arxiv url: http://arxiv.org/abs/2506.02863v1
- Date: Tue, 03 Jun 2025 13:28:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.704548
- Title: CapSpeech: Enabling Downstream Applications in Style-Captioned Text-to-Speech
- Title(参考訳): CapSpeech: スタイルを指定したテキストから音声へのダウンストリームアプリケーションの実現
- Authors: Helin Wang, Jiarui Hai, Dading Chong, Karan Thakkar, Tiantian Feng, Dongchao Yang, Junhyeok Lee, Laureano Moro Velazquez, Jesus Villalba, Zengyi Qin, Shrikanth Narayanan, Mounya Elhiali, Najim Dehak,
- Abstract要約: CapTTS関連の一連のタスクのための新しいベンチマークであるCapSpeechを紹介する。
CapSpeechは、1000万以上の機械アノテーション付きオーディオキャプチャーペアと、約0.36万の人間アノテーション付きオーディオキャプチャーペアで構成されている。
CapSpeech上で自己回帰モデルと非自己回帰モデルの両方を用いて包括的実験を行う。
- 参考スコア(独自算出の注目度): 51.439665930861146
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advancements in generative artificial intelligence have significantly transformed the field of style-captioned text-to-speech synthesis (CapTTS). However, adapting CapTTS to real-world applications remains challenging due to the lack of standardized, comprehensive datasets and limited research on downstream tasks built upon CapTTS. To address these gaps, we introduce CapSpeech, a new benchmark designed for a series of CapTTS-related tasks, including style-captioned text-to-speech synthesis with sound events (CapTTS-SE), accent-captioned TTS (AccCapTTS), emotion-captioned TTS (EmoCapTTS), and text-to-speech synthesis for chat agent (AgentTTS). CapSpeech comprises over 10 million machine-annotated audio-caption pairs and nearly 0.36 million human-annotated audio-caption pairs. In addition, we introduce two new datasets collected and recorded by a professional voice actor and experienced audio engineers, specifically for the AgentTTS and CapTTS-SE tasks. Alongside the datasets, we conduct comprehensive experiments using both autoregressive and non-autoregressive models on CapSpeech. Our results demonstrate high-fidelity and highly intelligible speech synthesis across a diverse range of speaking styles. To the best of our knowledge, CapSpeech is the largest available dataset offering comprehensive annotations for CapTTS-related tasks. The experiments and findings further provide valuable insights into the challenges of developing CapTTS systems.
- Abstract(参考訳): 生成人工知能の最近の進歩は、字幕音声合成(CapTTS)の分野を大きく変えた。
しかし、CapTTSを現実世界のアプリケーションに適用することは、標準化された包括的なデータセットの欠如と、CapTTS上に構築された下流タスクに関する限られた研究のため、依然として難しい。
CapTTS-SE(CapTTS-SE)、アクセントキャプション付きTS(AccCapTTS)、感情キャプション付きTS(EmoCapTTS)、チャットエージェント(AgentTTS)のテキスト音声合成などである。
CapSpeechは、1000万以上の機械アノテーション付きオーディオキャプチャーペアと、約0.36万の人間アノテーション付きオーディオキャプチャーペアで構成されている。
さらに、プロの音声アクターと経験豊富なオーディオエンジニアによって収集・記録された2つの新しいデータセット、特にAgentTTSとCapTTS-SEタスクについて紹介する。
データセットとともに、CapSpeech上で自己回帰モデルと非自己回帰モデルの両方を用いて包括的な実験を行う。
本研究は,多種多様な話し方で高忠実かつ高知能な音声合成を実証するものである。
私たちの知る限り、CapSpeechはCapTTS関連タスクの包括的なアノテーションを提供する最大のデータセットです。
実験と結果はさらに、CapTTSシステムを開発する際の課題に関する貴重な洞察を提供する。
関連論文リスト
- Scaling Rich Style-Prompted Text-to-Speech Datasets [49.1662517033426]
Paralinguistic Speech Captions (ParaSpeechCaps) は、リッチなスタイルのキャプションで音声を注釈する大規模データセットである。
ParaSpeechCapsは、話者レベルの固有のタグと発話レベルの状況タグを含む、59種類のタグをカバーしている。
人間のラベル付きデータ342時間、自動注釈付きデータ2427時間で構成される。
論文 参考訳(メタデータ) (2025-03-06T18:57:40Z) - Spark-TTS: An Efficient LLM-Based Text-to-Speech Model with Single-Stream Decoupled Speech Tokens [31.575335190916995]
本稿では,音声を2つの補完トークンタイプに分解する単一ストリーム音声であるBiCodecを利用した新しいシステムであるSpark-TTSを紹介する。
制御可能なTSの研究を容易にするために,包括的な属性アノテーションを備えた10000時間データセットであるVoxBoxを紹介した。
論文 参考訳(メタデータ) (2025-03-03T16:23:10Z) - Visual-Aware Text-to-Speech [101.89332968344102]
テキスト入力と対面コミュニケーションにおけるリスナーの視覚的フィードバックの両方で条件付き音声を合成する新しい視覚認識型音声合成(VA-TTS)タスクを提案する。
音声合成のための音素言語情報とリスナー視覚信号を融合するベースラインモデルを提案する。
論文 参考訳(メタデータ) (2023-06-21T05:11:39Z) - WavCaps: A ChatGPT-Assisted Weakly-Labelled Audio Captioning Dataset for Audio-Language Multimodal Research [82.42802570171096]
約400kの音声クリップとペアキャプションを組み合わせた,大規模な音声キャプションデータセットであるWavCapsを紹介した。
オンラインハーベストな生の記述は非常にうるさいし、自動音声キャプションなどのタスクで直接使うには適さない。
本稿では,大規模な言語モデルであるChatGPTを用いて,ノイズの多いデータをフィルタリングし,高品質なキャプションを生成するための3段階処理パイプラインを提案する。
論文 参考訳(メタデータ) (2023-03-30T14:07:47Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - PromptTTS: Controllable Text-to-Speech with Text Descriptions [32.647362978555485]
文体と内容の両方を入力としてプロンプトを取り、対応する音声を合成するテキスト音声合成システム(TTS)を開発した。
PromptTTSはスタイルエンコーダとコンテンツエンコーダで構成され、プロンプトから対応する表現を抽出する。
実験により, PromptTTSは高精度なスタイル制御と高音質の音声を生成可能であることが示された。
論文 参考訳(メタデータ) (2022-11-22T10:58:38Z) - Guided-TTS:Text-to-Speech with Untranscribed Speech [22.548875263927396]
我々は、未転写音声データから音声を生成することを学習する高品質TTSモデルである Guided-TTS を提案する。
音声合成において,無条件DDPMの生成過程を音素分類を用いて導き,メル-スペクトログラムを生成する。
論文 参考訳(メタデータ) (2021-11-23T10:05:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。