論文の概要: Zero-Shot Long-Form Voice Cloning with Dynamic Convolution Attention
- arxiv url: http://arxiv.org/abs/2201.10375v2
- Date: Wed, 26 Jan 2022 12:30:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-28 01:10:06.264316
- Title: Zero-Shot Long-Form Voice Cloning with Dynamic Convolution Attention
- Title(参考訳): 動的畳み込みを考慮したゼロショットロングフォーム音声クローニング
- Authors: Artem Gorodetskii, Ivan Ozhiganov
- Abstract要約: 本稿では,数秒間の参照音声からターゲット音声を再生可能な,注意に基づく音声合成システムを提案する。
長期発話への一般化は、ダイナミック・コンボリューション・アテンション(Dynamic Convolution Attention)と呼ばれるエネルギーベースのアテンション機構を用いて実現される。
音声の自然性、話者の類似性、アライメントの整合性、長い発話を合成する能力などの観点から、音声クローニングシステムの実装を比較した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With recent advancements in voice cloning, the performance of speech
synthesis for a target speaker has been rendered similar to the human level.
However, autoregressive voice cloning systems still suffer from text alignment
failures, resulting in an inability to synthesize long sentences. In this work,
we propose a variant of attention-based text-to-speech system that can
reproduce a target voice from a few seconds of reference speech and generalize
to very long utterances as well. The proposed system is based on three
independently trained components: a speaker encoder, synthesizer and universal
vocoder. Generalization to long utterances is realized using an energy-based
attention mechanism known as Dynamic Convolution Attention, in combination with
a set of modifications proposed for the synthesizer based on Tacotron 2.
Moreover, effective zero-shot speaker adaptation is achieved by conditioning
both the synthesizer and vocoder on a speaker encoder that has been pretrained
on a large corpus of diverse data. We compare several implementations of voice
cloning systems in terms of speech naturalness, speaker similarity, alignment
consistency and ability to synthesize long utterances, and conclude that the
proposed model can produce intelligible synthetic speech for extremely long
utterances, while preserving a high extent of naturalness and similarity for
short texts.
- Abstract(参考訳): 近年の音声クローン化の進展により,対象話者の音声合成性能は人間レベルと同様に向上した。
しかし、自己回帰音声クローニングシステムはまだテキストアライメントの失敗に悩まされており、長文を合成できない。
本研究では,数秒の参照音声から対象音声を再生し,非常に長い発話に一般化する,注意に基づくテキスト音声合成システムを提案する。
提案方式は, スピーカエンコーダ, シンセサイザ, ユニバーサルボコーダの3つの独立学習成分をベースとする。
動的畳み込み注意(dynamic convolution attention)として知られるエネルギーベースの注意機構と、タコトロン2に基づくシンセサイザーに提案される一連の修正の組み合わせを用いて、長発話への一般化を実現する。
さらに,多種多様なデータを事前学習した話者エンコーダに,合成器とボコーダの両方を条件付けすることにより,効果的なゼロショット話者適応を実現する。
本稿では,音声の自然性,話者の類似性,アライメント一貫性,長文合成能力などの観点から,音声クローンシステムの実装をいくつか比較し,提案手法が,短文の自然性や類似性を高く保ちながら,極めて長い発話に対して理解可能な合成音声を生成することができることを結論づける。
関連論文リスト
- Articulatory Encodec: Vocal Tract Kinematics as a Codec for Speech [5.0751585360524425]
調音エンコーデックは音声のニューラルデコードの新しい枠組みである。
音声音声から音声特徴を推測し、音声特徴から音声音声を合成する。
これは普遍的で高性能な調音推論と合成の初めての実証である。
論文 参考訳(メタデータ) (2024-06-18T18:38:17Z) - EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech
Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。
このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。
自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文 参考訳(メタデータ) (2023-08-10T17:41:19Z) - Make-A-Voice: Unified Voice Synthesis With Discrete Representation [77.3998611565557]
Make-A-Voiceは、個別表現から音声信号を合成・操作するための統合されたフレームワークである。
我々は,Make-A-Voiceは,競合するベースラインモデルと比較して,音質とスタイルの類似性が優れていることを示す。
論文 参考訳(メタデータ) (2023-05-30T17:59:26Z) - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。
NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-04-18T16:31:59Z) - Controllable speech synthesis by learning discrete phoneme-level
prosodic representations [53.926969174260705]
直感的な離散ラベルを用いたF0と持続時間に対する音素レベル韻律制御のための新しい手法を提案する。
複数話者音声データセットから音素レベルF0と持続時間の特徴を識別するために用いられる教師なし韻律クラスタリングプロセスを提案する。
論文 参考訳(メタデータ) (2022-11-29T15:43:36Z) - A unified one-shot prosody and speaker conversion system with
self-supervised discrete speech units [94.64927912924087]
既存のシステムは韻律と言語内容の相関を無視し、変換された音声の自然度を低下させる。
自己教師付き離散音声単位を言語表現として活用するカスケードモジュラーシステムを提案する。
実験により,本システムは,自然性,知性,話者伝達性,韻律伝達性において,従来の手法よりも優れていたことがわかった。
論文 参考訳(メタデータ) (2022-11-12T00:54:09Z) - Expressive Neural Voice Cloning [12.010555227327743]
合成音声の様々なスタイルの様々な側面をきめ細かな制御が可能な制御可能な音声クローニング法を提案する。
提案手法は,新たな話者のための音声サンプルの書き起こしと書き起こしのみを用いて,様々な音声のクローニング作業に利用できることを示す。
論文 参考訳(メタデータ) (2021-01-30T05:09:57Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - NAUTILUS: a Versatile Voice Cloning System [44.700803634034486]
NAUTILUSは、任意のソーススピーカのテキスト入力または参照発話から、ターゲット音声で音声を生成することができる。
バックプロパゲーションアルゴリズムに基づいて、ターゲット話者の未転写音声を用いて、未知の声をクローンすることができる。
最新技術であるTSやVCシステムと同等のクオリティを達成し、翻訳されていない音声を5分でクローンする。
論文 参考訳(メタデータ) (2020-05-22T05:00:20Z) - From Speaker Verification to Multispeaker Speech Synthesis, Deep
Transfer with Feedback Constraint [11.982748481062542]
本稿では,マルチスピーカ音声合成のためのフィードバック制約を含むシステムを提案する。
我々は,話者検証ネットワークに係わることにより,話者検証から音声合成への知識伝達の促進に成功している。
モデルはトレーニングされ、公開されているデータセットで評価される。
論文 参考訳(メタデータ) (2020-05-10T06:11:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。