論文の概要: Creating New Voices using Normalizing Flows
- arxiv url: http://arxiv.org/abs/2312.14569v1
- Date: Fri, 22 Dec 2023 10:00:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-25 15:28:41.391982
- Title: Creating New Voices using Normalizing Flows
- Title(参考訳): 正規化フローを用いた新しい音声生成
- Authors: Piotr Bilinski, Thomas Merritt, Abdelhamid Ezzerg, Kamil Pokora,
Sebastian Cygert, Kayoko Yanagisawa, Roberto Barra-Chicote, Daniel Korzekwa
- Abstract要約: 本研究では,テキスト音声(TTS)と音声変換(VC)モードのフローを正規化して,学習中に観察された話者から外挿し,未知の話者識別を生成する能力について検討する。
目的と主観の両方を用いて、ゼロショットと新しい音声合成という2つの評価課題にテクニックをベンチマークする。
- 参考スコア(独自算出の注目度): 16.747198180269127
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Creating realistic and natural-sounding synthetic speech remains a big
challenge for voice identities unseen during training. As there is growing
interest in synthesizing voices of new speakers, here we investigate the
ability of normalizing flows in text-to-speech (TTS) and voice conversion (VC)
modes to extrapolate from speakers observed during training to create unseen
speaker identities. Firstly, we create an approach for TTS and VC, and then we
comprehensively evaluate our methods and baselines in terms of intelligibility,
naturalness, speaker similarity, and ability to create new voices. We use both
objective and subjective metrics to benchmark our techniques on 2 evaluation
tasks: zero-shot and new voice speech synthesis. The goal of the former task is
to measure the precision of the conversion to an unseen voice. The goal of the
latter is to measure the ability to create new voices. Extensive evaluations
demonstrate that the proposed approach systematically allows to obtain
state-of-the-art performance in zero-shot speech synthesis and creates various
new voices, unobserved in the training set. We consider this work to be the
first attempt to synthesize new voices based on mel-spectrograms and
normalizing flows, along with a comprehensive analysis and comparison of the
TTS and VC modes.
- Abstract(参考訳): 現実的で自然な合成音声を作ることは、訓練中に見つからない音声のアイデンティティにとって大きな課題だ。
新たな話者の音声合成への関心が高まっているため,本研究では,学習中に観察された話者から外挿し,未知の話者識別を作成するために,テキスト音声(TTS)と音声変換(VC)モードのフローを正規化する能力について検討する。
まず、TSとVCのアプローチを作成し、その上で、インテリジェンス、自然性、話者の類似性、新しい音声を生成する能力の観点から、私たちの方法とベースラインを包括的に評価します。
目的と主観の両方を用いて、ゼロショットと新しい音声合成という2つの評価課題にテクニックをベンチマークする。
前者のタスクの目標は、目に見えない声への変換の精度を測定することである。
後者の目的は、新しい声を作り出す能力を測定することである。
広範評価により,提案手法はゼロショット音声合成における最先端性能を体系的に獲得し,トレーニングセットにない様々な新しい音声を生成できることが示されている。
本研究は,MTSおよびVCモードの総合的な分析と比較とともに,メルスペクトルと正規化フローに基づく新しい音声を合成する最初の試みであると考えている。
関連論文リスト
- Visual-Aware Text-to-Speech [101.89332968344102]
テキスト入力と対面コミュニケーションにおけるリスナーの視覚的フィードバックの両方で条件付き音声を合成する新しい視覚認識型音声合成(VA-TTS)タスクを提案する。
音声合成のための音素言語情報とリスナー視覚信号を融合するベースラインモデルを提案する。
論文 参考訳(メタデータ) (2023-06-21T05:11:39Z) - Make-A-Voice: Unified Voice Synthesis With Discrete Representation [77.3998611565557]
Make-A-Voiceは、個別表現から音声信号を合成・操作するための統合されたフレームワークである。
我々は,Make-A-Voiceは,競合するベースラインモデルと比較して,音質とスタイルの類似性が優れていることを示す。
論文 参考訳(メタデータ) (2023-05-30T17:59:26Z) - Zero-shot personalized lip-to-speech synthesis with face image based
voice control [41.17483247506426]
顔画像から対応する音声を予測するLip-to-Speech(Lip2Speech)合成は、様々なモデルや訓練戦略で大きく進歩している。
顔画像が話者の身元を制御するゼロショットパーソナライズされたLip2Speech合成法を提案する。
論文 参考訳(メタデータ) (2023-05-09T02:37:29Z) - ACE-VC: Adaptive and Controllable Voice Conversion using Explicitly
Disentangled Self-supervised Speech Representations [12.20522794248598]
自己教師付き学習で訓練された音声表現を用いたゼロショット音声変換法を提案する。
我々は,発話を言語内容,話者特性,発話スタイルなどの特徴に分解するマルチタスクモデルを開発した。
次に,その表現から音声信号を効果的に再構成できるピッチと時間予測器を備えた合成モデルを開発する。
論文 参考訳(メタデータ) (2023-02-16T08:10:41Z) - Cross-lingual Text-To-Speech with Flow-based Voice Conversion for
Improved Pronunciation [11.336431583289382]
本稿では,エンドツーエンドの言語間テキスト合成手法を提案する。
本来の話者の言語によらず、対象言語の発音を維持することを目的としている。
論文 参考訳(メタデータ) (2022-10-31T12:44:53Z) - HiFi-VC: High Quality ASR-Based Voice Conversion [0.0]
音声変換パイプラインを新たに提案する。
提案手法では,音声認識機能,ピッチ追跡,最先端波形予測モデルを用いる。
論文 参考訳(メタデータ) (2022-03-31T10:45:32Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - On Prosody Modeling for ASR+TTS based Voice Conversion [82.65378387724641]
音声変換において、最新の音声変換チャレンジ(VCC)2020における有望な結果を示すアプローチは、まず、ソース音声を基礎となる言語内容に書き起こすために、自動音声認識(ASR)モデルを使用することである。
このようなパラダイムはASR+TTSと呼ばれ、音声の自然性と変換の類似性において重要な役割を果たす韻律のモデル化を見落としている。
本稿では,ターゲットテキスト予測(TTP)と呼ばれる,ターゲット話者に依存した言語表現から直接韻律を予測することを提案する。
論文 参考訳(メタデータ) (2021-07-20T13:30:23Z) - Meta-StyleSpeech : Multi-Speaker Adaptive Text-to-Speech Generation [63.561944239071615]
StyleSpeechは、高品質な音声を合成し、新しい話者に適応する新しいTSモデルである。
SALNでは、単一音声音声からでもターゲット話者のスタイルで音声を効果的に合成する。
提案手法をMeta-StyleSpeechに拡張するには,スタイルプロトタイプで訓練された2つの識別器を導入し,エピソード訓練を行う。
論文 参考訳(メタデータ) (2021-06-06T15:34:11Z) - Limited Data Emotional Voice Conversion Leveraging Text-to-Speech:
Two-stage Sequence-to-Sequence Training [91.95855310211176]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変えることを目的としている。
本研究では,感情音声データ量の少ない連続音声変換のための新しい2段階学習戦略を提案する。
提案フレームワークはスペクトル変換と韻律変換の両方が可能であり、客観的評価と主観評価の両方において最先端のベースラインを大幅に改善する。
論文 参考訳(メタデータ) (2021-03-31T04:56:14Z) - Latent linguistic embedding for cross-lingual text-to-speech and voice
conversion [44.700803634034486]
言語間音声生成は、話者が話さない言語において、ターゲット話者の声で発話が生成されるシナリオである。
提案手法は, 話者類似度の高い多言語VCを生成するだけでなく, 余分なステップを踏むことなく, TTSをシームレスに利用できることを示す。
論文 参考訳(メタデータ) (2020-10-08T01:25:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。