論文の概要: Expressive Neural Voice Cloning
- arxiv url: http://arxiv.org/abs/2102.00151v1
- Date: Sat, 30 Jan 2021 05:09:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-04 10:02:38.542949
- Title: Expressive Neural Voice Cloning
- Title(参考訳): 表現型ニューラルボイスクローニング
- Authors: Paarth Neekhara, Shehzeen Hussain, Shlomo Dubnov, Farinaz Koushanfar,
Julian McAuley
- Abstract要約: 合成音声の様々なスタイルの様々な側面をきめ細かな制御が可能な制御可能な音声クローニング法を提案する。
提案手法は,新たな話者のための音声サンプルの書き起こしと書き起こしのみを用いて,様々な音声のクローニング作業に利用できることを示す。
- 参考スコア(独自算出の注目度): 12.010555227327743
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Voice cloning is the task of learning to synthesize the voice of an unseen
speaker from a few samples. While current voice cloning methods achieve
promising results in Text-to-Speech (TTS) synthesis for a new voice, these
approaches lack the ability to control the expressiveness of synthesized audio.
In this work, we propose a controllable voice cloning method that allows
fine-grained control over various style aspects of the synthesized speech for
an unseen speaker. We achieve this by explicitly conditioning the speech
synthesis model on a speaker encoding, pitch contour and latent style tokens
during training. Through both quantitative and qualitative evaluations, we show
that our framework can be used for various expressive voice cloning tasks using
only a few transcribed or untranscribed speech samples for a new speaker. These
cloning tasks include style transfer from a reference speech, synthesizing
speech directly from text, and fine-grained style control by manipulating the
style conditioning variables during inference.
- Abstract(参考訳): 音声クローニングは、いくつかのサンプルから見えないスピーカーの声を合成する学習のタスクです。
現在の音声クローニング法は、新しい音声のためのテキスト音声合成(TTS)の有望な結果を達成するが、これらのアプローチは合成音声の表現力を制御できない。
本研究では,未知話者に対する合成音声の様々なスタイルをきめ細かな制御が可能な制御可能な音声クローニング手法を提案する。
学習中に話者エンコーディング、ピッチ輪郭、潜在スタイルトークンに音声合成モデルを明示的に条件付けすることで、これを実現する。
定量的・定性的評価を通じ,新しい話者に対して数回の書き起こし・未書き起こし音声サンプルのみを用いて,様々な表現的音声クローニングタスクに使用できることを示す。
これらのクローニングタスクには、参照音声からのスタイル転送、テキストから直接音声を合成すること、推論中にスタイル条件変数を操作してきめ細かいスタイル制御が含まれる。
関連論文リスト
- Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。
我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。
実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文 参考訳(メタデータ) (2024-03-18T13:39:05Z) - EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech
Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。
このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。
自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文 参考訳(メタデータ) (2023-08-10T17:41:19Z) - Make-A-Voice: Unified Voice Synthesis With Discrete Representation [77.3998611565557]
Make-A-Voiceは、個別表現から音声信号を合成・操作するための統合されたフレームワークである。
我々は,Make-A-Voiceは,競合するベースラインモデルと比較して,音質とスタイルの類似性が優れていることを示す。
論文 参考訳(メタデータ) (2023-05-30T17:59:26Z) - Controllable speech synthesis by learning discrete phoneme-level
prosodic representations [53.926969174260705]
直感的な離散ラベルを用いたF0と持続時間に対する音素レベル韻律制御のための新しい手法を提案する。
複数話者音声データセットから音素レベルF0と持続時間の特徴を識別するために用いられる教師なし韻律クラスタリングプロセスを提案する。
論文 参考訳(メタデータ) (2022-11-29T15:43:36Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - Prosody Cloning in Zero-Shot Multispeaker Text-to-Speech [25.707717591185386]
品質の劣化を伴わずに、話者の声と、音声参照の韻律を独立にクローンすることが可能であることを示す。
コードとトレーニングされたモデルはすべて、静的およびインタラクティブなデモとともに利用可能です。
論文 参考訳(メタデータ) (2022-06-24T11:54:59Z) - Zero-Shot Long-Form Voice Cloning with Dynamic Convolution Attention [0.0]
本稿では,数秒間の参照音声からターゲット音声を再生可能な,注意に基づく音声合成システムを提案する。
長期発話への一般化は、ダイナミック・コンボリューション・アテンション(Dynamic Convolution Attention)と呼ばれるエネルギーベースのアテンション機構を用いて実現される。
音声の自然性、話者の類似性、アライメントの整合性、長い発話を合成する能力などの観点から、音声クローニングシステムの実装を比較した。
論文 参考訳(メタデータ) (2022-01-25T15:06:07Z) - Meta-Voice: Fast few-shot style transfer for expressive voice cloning
using meta learning [37.73490851004852]
テキスト音声合成(TTS)における音声クローンのための少数ショットスタイル転送の課題は、非常に限られた量の中立データを用いて、任意の音源話者の発話スタイルをターゲット話者の音声に転送することを目的としている。
学習アルゴリズムは、数発の音声クローンと話者/韻律のアンタングルを同時に扱う必要があるため、これは非常に難しい作業である。
本稿では,メタラーニングを用いた音声のクローン処理のための高速な数ショットスタイル転送手法を提案する。
論文 参考訳(メタデータ) (2021-11-14T01:30:37Z) - Towards Multi-Scale Style Control for Expressive Speech Synthesis [60.08928435252417]
提案手法では,マルチスケール参照エンコーダを用いて,対象音声のグローバルな発話レベルと局所的な準音素レベルの特徴を抽出する。
訓練期間中、マルチスケールスタイルモデルは、エンドツーエンドで音声合成モデルと共同で訓練することができる。
論文 参考訳(メタデータ) (2021-04-08T05:50:09Z) - NAUTILUS: a Versatile Voice Cloning System [44.700803634034486]
NAUTILUSは、任意のソーススピーカのテキスト入力または参照発話から、ターゲット音声で音声を生成することができる。
バックプロパゲーションアルゴリズムに基づいて、ターゲット話者の未転写音声を用いて、未知の声をクローンすることができる。
最新技術であるTSやVCシステムと同等のクオリティを達成し、翻訳されていない音声を5分でクローンする。
論文 参考訳(メタデータ) (2020-05-22T05:00:20Z) - From Speaker Verification to Multispeaker Speech Synthesis, Deep
Transfer with Feedback Constraint [11.982748481062542]
本稿では,マルチスピーカ音声合成のためのフィードバック制約を含むシステムを提案する。
我々は,話者検証ネットワークに係わることにより,話者検証から音声合成への知識伝達の促進に成功している。
モデルはトレーニングされ、公開されているデータセットで評価される。
論文 参考訳(メタデータ) (2020-05-10T06:11:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。