論文の概要: A Neural Text-to-Speech Model Utilizing Broadcast Data Mixed with
Background Music
- arxiv url: http://arxiv.org/abs/2103.03049v1
- Date: Thu, 4 Mar 2021 14:14:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-05 14:42:32.501719
- Title: A Neural Text-to-Speech Model Utilizing Broadcast Data Mixed with
Background Music
- Title(参考訳): 背景音楽と混合した放送データを用いたニューラルテキスト音声モデル
- Authors: Hanbin Bae, Jae-Sung Bae, Young-Sun Joo, Young-Ik Kim, Hoon-Young Cho
- Abstract要約: クリーンスピーチの割合は不十分であり、残りはバックグラウンドミュージックを含む。
限られた放送データでエンドツーエンドのTSSモデルを訓練する以下の方法を提案する。
実験により,提案手法は従来手法よりもはるかに高品質な音声を合成することを確認した。
- 参考スコア(独自算出の注目度): 7.122236250657051
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, it has become easier to obtain speech data from various media such
as the internet or YouTube, but directly utilizing them to train a neural
text-to-speech (TTS) model is difficult. The proportion of clean speech is
insufficient and the remainder includes background music. Even with the global
style token (GST). Therefore, we propose the following method to successfully
train an end-to-end TTS model with limited broadcast data. First, the
background music is removed from the speech by introducing a music filter.
Second, the GST-TTS model with an auxiliary quality classifier is trained with
the filtered speech and a small amount of clean speech. In particular, the
quality classifier makes the embedding vector of the GST layer focus on
representing the speech quality (filtered or clean) of the input speech. The
experimental results verified that the proposed method synthesized much more
high-quality speech than conventional methods.
- Abstract(参考訳): 近年,インターネットやyoutubeなどのメディアから音声データを得るのが容易になっているが,tts(neural text-to-speech)モデルを直接利用することは困難である。
クリーンスピーチの割合は不十分であり、残りはバックグラウンドミュージックを含む。
global style token (gst)でさえも。
そこで本研究では,放送データに制限のあるエンドツーエンドのTSモデルを学習する手法を提案する。
まず、音楽フィルタを導入することにより、背景音楽が音声から削除される。
第二に、補助品質分類器を備えたGST-TTSモデルは、フィルタリングされた音声と少量のクリーンな音声で訓練される。
特に、品質分類器は、GST層の埋め込みベクトルを入力音声の音声品質(フィルタまたはクリーン)を表すことに重点を置いている。
実験により,提案手法は従来手法よりもはるかに高品質な音声を合成することを確認した。
関連論文リスト
- SpeechX: Neural Codec Language Model as a Versatile Speech Transformer [57.82364057872905]
SpeechX は、ゼロショット TTS と様々な音声変換タスクが可能な汎用音声生成モデルである。
実験結果から, ゼロショットTS, ノイズ抑制, ターゲット話者抽出, 音声除去, 背景雑音の有無による音声編集など, 各種タスクにおけるSpeechXの有効性が示された。
論文 参考訳(メタデータ) (2023-08-14T01:01:19Z) - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。
NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-04-18T16:31:59Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Voice Filter: Few-shot text-to-speech speaker adaptation using voice
conversion as a post-processing module [16.369219400819134]
最先端の音声合成システム(TTS)は、高品質な合成音声を生成するために、数時間の音声データを記録する必要がある。
トレーニングデータの量を減らす場合、標準のTSモデルは音声品質と知性劣化に悩まされる。
本稿では,ターゲット話者からの音声を1分以内で処理するVoice Filterという,非常に低リソースなTTS手法を提案する。
論文 参考訳(メタデータ) (2022-02-16T16:12:21Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - Meta-StyleSpeech : Multi-Speaker Adaptive Text-to-Speech Generation [63.561944239071615]
StyleSpeechは、高品質な音声を合成し、新しい話者に適応する新しいTSモデルである。
SALNでは、単一音声音声からでもターゲット話者のスタイルで音声を効果的に合成する。
提案手法をMeta-StyleSpeechに拡張するには,スタイルプロトタイプで訓練された2つの識別器を導入し,エピソード訓練を行う。
論文 参考訳(メタデータ) (2021-06-06T15:34:11Z) - AdaSpeech 2: Adaptive Text to Speech with Untranscribed Data [115.38309338462588]
AdaSpeech 2 は、未転写音声データのみを適応に利用する適応型 TTS システムである。
具体的には,よく訓練されたttsモデルにmel-spectrogramエンコーダを導入し,音声再構成を行う。
適応では,ttsデコーダのみを微調整し,未書き起こし音声データを用いて音声再構成を行う。
論文 参考訳(メタデータ) (2021-04-20T01:53:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。