論文の概要: Improve few-shot voice cloning using multi-modal learning
- arxiv url: http://arxiv.org/abs/2203.09708v1
- Date: Fri, 18 Mar 2022 02:57:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-22 01:44:28.958130
- Title: Improve few-shot voice cloning using multi-modal learning
- Title(参考訳): マルチモーダル学習による数発音声クローンの改良
- Authors: Haitong Zhang, Yue Lin
- Abstract要約: 本稿では,マルチモーダル学習を用いて音声クローン性能を向上させることを提案する。
提案手法を, 音声合成, 音声変換 (VC) , 音声合成 (TTS) の2つのシナリオで評価した。
- 参考スコア(独自算出の注目度): 11.18020865307239
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, few-shot voice cloning has achieved a significant improvement.
However, most models for few-shot voice cloning are single-modal, and
multi-modal few-shot voice cloning has been understudied. In this paper, we
propose to use multi-modal learning to improve the few-shot voice cloning
performance. Inspired by the recent works on unsupervised speech
representation, the proposed multi-modal system is built by extending Tacotron2
with an unsupervised speech representation module. We evaluate our proposed
system in two few-shot voice cloning scenarios, namely few-shot
text-to-speech(TTS) and voice conversion(VC). Experimental results demonstrate
that the proposed multi-modal learning can significantly improve the few-shot
voice cloning performance over their counterpart single-modal systems.
- Abstract(参考訳): 近年,音声のクローン化が著しい進歩を遂げている。
しかし、少数ショット音声クローンのほとんどのモデルはシングルモーダルであり、複数モーダル音声クローンが検討されている。
本稿では,マルチモーダル学習を用いて音声クローン性能を向上させることを提案する。
教師なし音声表現の最近の研究に触発され,教師なし音声表現モジュールでTacotron2を拡張したマルチモーダルシステムを構築した。
提案システムは,2つの音声合成シナリオ,すなわち,音声変換(VC)と音声合成(TTS)で評価する。
実験の結果, 提案するマルチモーダル学習は, 単モーダルシステムに比べて, 音声のクローン性能が有意に向上することが示された。
関連論文リスト
- Multi-modal Adversarial Training for Zero-Shot Voice Cloning [9.823246184635103]
実音声特徴と生成音声特徴を条件付きで識別するトランスフォーマーエンコーダデコーダアーキテクチャを提案する。
我々は、FastSpeech2音響モデルに適用し、大規模マルチスピーカーデータセットであるLibriheavyのトレーニングを行うことにより、新しい対角訓練手法を導入する。
本モデルは,音声品質と話者類似度の観点から,ベースラインに対する改善を実現する。
論文 参考訳(メタデータ) (2024-08-28T16:30:41Z) - Advancing Voice Cloning for Nepali: Leveraging Transfer Learning in a Low-Resource Language [0.4810348726854312]
ニューラル・ボーカル・クローンシステムは、ほんの少しのオーディオサンプルを使って誰かの声を模倣することができる。
話者符号化と話者適応は、音声クローニングの分野における研究のトピックである。
主な目的は、ネパールアクセントで音声出力を生成する音声クローニングシステムを作ることである。
論文 参考訳(メタデータ) (2024-08-19T16:15:09Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - Meta-Voice: Fast few-shot style transfer for expressive voice cloning
using meta learning [37.73490851004852]
テキスト音声合成(TTS)における音声クローンのための少数ショットスタイル転送の課題は、非常に限られた量の中立データを用いて、任意の音源話者の発話スタイルをターゲット話者の音声に転送することを目的としている。
学習アルゴリズムは、数発の音声クローンと話者/韻律のアンタングルを同時に扱う必要があるため、これは非常に難しい作業である。
本稿では,メタラーニングを用いた音声のクローン処理のための高速な数ショットスタイル転送手法を提案する。
論文 参考訳(メタデータ) (2021-11-14T01:30:37Z) - Investigating on Incorporating Pretrained and Learnable Speaker
Representations for Multi-Speaker Multi-Style Text-to-Speech [54.75722224061665]
本研究では,異なる話者表現を調査し,事前学習可能な話者表現を統合することを提案する。
FastSpeech 2モデルと事前訓練された話者表現と学習可能な話者表現を組み合わせることで、少数の話者に対して大きな一般化能力を示す。
論文 参考訳(メタデータ) (2021-03-06T10:14:33Z) - Latent linguistic embedding for cross-lingual text-to-speech and voice
conversion [44.700803634034486]
言語間音声生成は、話者が話さない言語において、ターゲット話者の声で発話が生成されるシナリオである。
提案手法は, 話者類似度の高い多言語VCを生成するだけでなく, 余分なステップを踏むことなく, TTSをシームレスに利用できることを示す。
論文 参考訳(メタデータ) (2020-10-08T01:25:07Z) - Filling the Gap of Utterance-aware and Speaker-aware Representation for
Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。
既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。
本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-09-14T15:07:19Z) - Modeling Prosodic Phrasing with Multi-Task Learning in Tacotron-based
TTS [74.11899135025503]
本稿では,Tacotronに基づく音声合成フレームワークを拡張し,韻律句のブレークを明示的にモデル化する。
提案手法は中国語とモンゴル語の両方の音質を一貫して改善することを示す。
論文 参考訳(メタデータ) (2020-08-11T07:57:29Z) - Many-to-Many Voice Transformer Network [55.17770019619078]
本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。
これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
論文 参考訳(メタデータ) (2020-05-18T04:02:08Z) - Voice Separation with an Unknown Number of Multiple Speakers [113.91855071999298]
本稿では,複数の音声が同時に発声する混合音声系列を分離する手法を提案する。
新たな手法では、複数の処理ステップで音声を分離するように訓練されたゲートニューラルネットワークを使用し、各出力チャネルに固定された話者を維持する。
論文 参考訳(メタデータ) (2020-02-29T20:02:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。