論文の概要: ComedicSpeech: Text To Speech For Stand-up Comedies in Low-Resource
Scenarios
- arxiv url: http://arxiv.org/abs/2305.12200v1
- Date: Sat, 20 May 2023 14:24:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 23:58:18.216532
- Title: ComedicSpeech: Text To Speech For Stand-up Comedies in Low-Resource
Scenarios
- Title(参考訳): ComedicSpeech:低リソースシナリオにおけるスタンドアップコメディのためのテキスト
- Authors: Yuyue Wang, Huan Xiao, Yihan Wu, Ruihua Song
- Abstract要約: 低リソースシナリオにおけるスタンドアップコメディ合成に適したTSシステムであるComeddicSpeechを開発した。
我々はプロソディエンコーダによる韻律表現を抽出し、それを柔軟な方法でTSモデルに条件付けする。
ComedicSpeechは,各コメディアンに対して10分間のトレーニングデータのみを用いて,ベースラインよりも表現性がよいことを示す実験を行った。
- 参考スコア(独自算出の注目度): 5.06044403956839
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text to Speech (TTS) models can generate natural and high-quality speech, but
it is not expressive enough when synthesizing speech with dramatic
expressiveness, such as stand-up comedies. Considering comedians have diverse
personal speech styles, including personal prosody, rhythm, and fillers, it
requires real-world datasets and strong speech style modeling capabilities,
which brings challenges. In this paper, we construct a new dataset and develop
ComedicSpeech, a TTS system tailored for the stand-up comedy synthesis in
low-resource scenarios. First, we extract prosody representation by the prosody
encoder and condition it to the TTS model in a flexible way. Second, we enhance
the personal rhythm modeling by a conditional duration predictor. Third, we
model the personal fillers by introducing comedian-related special tokens.
Experiments show that ComedicSpeech achieves better expressiveness than
baselines with only ten-minute training data for each comedian. The audio
samples are available at https://xh621.github.io/stand-up-comedy-demo/
- Abstract(参考訳): text to speech (tts) モデルは自然で高品質な音声を生成することができるが、スタンドアップコメディーのような劇的な表現力で音声を合成する場合は表現力に乏しい。
コメディアンは、個人的韻律、リズム、フィラーなど、多様な個人的音声スタイルを持つため、現実世界のデータセットと強い音声スタイルモデリング能力が必要となる。
本稿では,新しいデータセットを構築し,低リソースシナリオにおけるスタンドアップ・コメディ合成に適したTSシステムであるCommiddSpeechを開発する。
まず、プロソディエンコーダによる韻律表現を抽出し、それを柔軟な方法でTSモデルに条件付ける。
第二に、条件付き持続時間予測器による個人リズムモデリングを強化する。
第3に,コメディアン関連の特殊トークンを導入することで,個人フィラーをモデル化する。
ComedicSpeechは,各コメディアンに対して10分間のトレーニングデータのみで,ベースラインよりも表現性がよいことを示す実験を行った。
オーディオサンプルはhttps://xh621.github.io/stand-up-comedy-demo/で入手できる。
関連論文リスト
- VoiceTextBlender: Augmenting Large Language Models with Speech Capabilities via Single-Stage Joint Speech-Text Supervised Fine-Tuning [64.56272011710735]
大規模言語モデル(LLM)のバックボーンの低ランク適応(LoRA)に対して,新しい単一段階共同音声テキストSFTアプローチを提案する。
従来のSpeechLMの7Bまたは13Bパラメータと比較すると,我々の3Bモデルは様々な音声ベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-23T00:36:06Z) - PauseSpeech: Natural Speech Synthesis via Pre-trained Language Model and
Pause-based Prosody Modeling [25.966328901566815]
本稿では,事前学習した言語モデルとポーズに基づく韻律モデルを用いた音声合成システムPuaseSpeechを提案する。
実験の結果,PauseSpeechは自然性において過去のモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-06-13T01:36:55Z) - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。
NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-04-18T16:31:59Z) - Imaginary Voice: Face-styled Diffusion Model for Text-to-Speech [33.01930038988336]
我々は、Face-TTSと呼ばれる統合フレームワーク内に、顔スタイルの拡散テキスト音声(TTS)モデルを導入する。
我々は、顔画像と生成された音声セグメント間の話者識別を保持するために、クロスモデルバイオメトリックスとTSモデルを共同で訓練する。
生体情報を直接顔画像から抽出するので、未確認話者や未聴者から音声を生成するために、余分な微調整は不要である。
論文 参考訳(メタデータ) (2023-02-27T11:59:28Z) - The Ability of Self-Supervised Speech Models for Audio Representations [53.19715501273934]
自己教師付き学習(SSL)音声モデルは、音声表現学習において前例のない成功を収めた。
我々は、最先端のSSL音声モデルの表現能力を評価するために、豊富な音声および非音声音声データセットに関する広範な実験を行う。
結果から、SSL音声モデルは幅広い非音声音声の有意義な特徴を抽出できるが、特定の種類のデータセットではフェールする可能性があることが示された。
論文 参考訳(メタデータ) (2022-09-26T15:21:06Z) - GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain
Text-to-Speech Synthesis [68.42632589736881]
本稿では,OODカスタム音声の高忠実度ゼロショットスタイル転送に向けたテキスト音声合成モデルGenerSpeechを提案する。
GenerSpeechは、2つのコンポーネントを導入することで、音声のバリエーションをスタイルに依存しない部分とスタイル固有の部分に分解する。
ゼロショット方式の転送について評価したところ,GenerSpeechは音質やスタイルの類似性の観点から,最先端のモデルを上回っていることがわかった。
論文 参考訳(メタデータ) (2022-05-15T08:16:02Z) - AnyoneNet: Synchronized Speech and Talking Head Generation for Arbitrary
Person [21.126759304401627]
本稿では,テキストと任意の人物の顔画像を入力として,同期音声とトーキングヘッド映像を自動生成する手法を提案する。
実験の結果,提案手法は任意の人や非人に対して,同期音声と音声のヘッドビデオを生成することができることがわかった。
論文 参考訳(メタデータ) (2021-08-09T19:58:38Z) - AdaSpeech 3: Adaptive Text to Speech for Spontaneous Style [111.89762723159677]
AdaSpeech 3 は,順応性のある TTS システムである。
AdaSpeech 3は自然なFPとリズムを自発的なスタイルで合成し、従来の適応TSシステムよりもずっと優れたMOSとSMOSスコアを達成する。
論文 参考訳(メタデータ) (2021-07-06T10:40:45Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。