論文の概要: F0-consistent many-to-many non-parallel voice conversion via conditional
autoencoder
- arxiv url: http://arxiv.org/abs/2004.07370v1
- Date: Wed, 15 Apr 2020 22:00:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 03:14:28.429701
- Title: F0-consistent many-to-many non-parallel voice conversion via conditional
autoencoder
- Title(参考訳): 条件付きオートエンコーダによるF0一貫性多対並列音声変換
- Authors: Kaizhi Qian, Zeyu Jin, Mark Hasegawa-Johnson, Gautham J. Mysore
- Abstract要約: 自動エンコーダによる音声変換を改良し,コンテンツ,F0,話者識別を同時に行う。
我々はF0輪郭を制御でき、ターゲット話者と一致したF0音声を生成し、品質と類似性を大幅に向上させることができる。
- 参考スコア(独自算出の注目度): 53.901873501494606
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Non-parallel many-to-many voice conversion remains an interesting but
challenging speech processing task. Many style-transfer-inspired methods such
as generative adversarial networks (GANs) and variational autoencoders (VAEs)
have been proposed. Recently, AutoVC, a conditional autoencoders (CAEs) based
method achieved state-of-the-art results by disentangling the speaker identity
and speech content using information-constraining bottlenecks, and it achieves
zero-shot conversion by swapping in a different speaker's identity embedding to
synthesize a new voice. However, we found that while speaker identity is
disentangled from speech content, a significant amount of prosodic information,
such as source F0, leaks through the bottleneck, causing target F0 to fluctuate
unnaturally. Furthermore, AutoVC has no control of the converted F0 and thus
unsuitable for many applications. In the paper, we modified and improved
autoencoder-based voice conversion to disentangle content, F0, and speaker
identity at the same time. Therefore, we can control the F0 contour, generate
speech with F0 consistent with the target speaker, and significantly improve
quality and similarity. We support our improvement through quantitative and
qualitative analysis.
- Abstract(参考訳): 非並列多対多音声変換は、興味深いが難解な音声処理課題である。
generative adversarial networks (gans) や variational autoencoder (vaes) など、多くのスタイル転送に触発された手法が提案されている。
近年,条件付きオートエンコーダ(caes)ベースのautovcが,情報制約ボトルネックを用いて話者のアイデンティティと音声コンテンツの分離を行い,新たな音声合成のために異なる話者のアイデンティティ埋め込みを交換することでゼロショット変換を実現する。
しかし、話者識別が音声コンテンツから切り離されている間、音源F0などの相当量の韻律情報がボトルネックを突破し、ターゲットF0が不自然に変動することを発見した。
さらに、AutoVCは変換されたF0を制御せず、多くのアプリケーションには適さない。
本稿では,オートエンコーダに基づく音声変換を,不等角形,f0,話者識別に同時に修正・改良した。
したがって、F0輪郭を制御し、ターゲット話者と一致したF0音声を生成し、品質と類似性を大幅に向上させることができる。
私たちは量的および質的な分析を通じて改善を支援します。
関連論文リスト
- Accent conversion using discrete units with parallel data synthesized from controllable accented TTS [56.18382038512251]
アクセント変換(AC)の目的は、コンテンツと話者のアイデンティティを保ちながら、アクセントを変換することである。
従来の手法では、推論中に参照発話が必要であったり、話者のアイデンティティを十分に保持していなかったり、ネイティブでないアクセントごとにのみトレーニング可能な1対1のシステムを使用していた。
本稿では,これらの問題を克服するために,多くのアクセントをネイティブに変換する,有望なACモデルを提案する。
論文 参考訳(メタデータ) (2024-09-30T19:52:10Z) - DisC-VC: Disentangled and F0-Controllable Neural Voice Conversion [17.83563578034567]
補助的ネットワークを伴う変分オートコーダに基づく音声変換モデルを提案する。
提案手法の有効性を客観評価および主観評価により示す。
論文 参考訳(メタデータ) (2022-10-20T07:30:07Z) - Robust Disentangled Variational Speech Representation Learning for
Zero-shot Voice Conversion [34.139871476234205]
自己教師付き不協和音声表現学習の新たな視点からゼロショット音声変換について検討する。
任意の話者埋め込みとコンテンツ埋め込みとを逐次変分オートエンコーダ(VAE)デコーダに供給してゼロショット音声変換を行う。
TIMIT と VCTK のデータセットでは,話者の埋め込みとコンテンツ埋め込みに関する話者検証 (SV) と主観的評価,すなわち音声の自然性や類似性を両立させ,ノイズのある音源/ターゲット発話においても頑健である。
論文 参考訳(メタデータ) (2022-03-30T23:03:19Z) - Enhancing Zero-Shot Many to Many Voice Conversion with Self-Attention
VAE [8.144263449781967]
変分自動エンコーダ(VAE)は、音声の発声を話者識別と言語内容の潜伏埋め込みに分解する有効なニューラルネットワークアーキテクチャである。
本研究では,VAEのデコーダの適切な位置から,変換音声を生成する際に,非局所情報を組み込む自己アテンション層を付加した。
論文 参考訳(メタデータ) (2022-03-30T03:52:42Z) - Many-to-Many Voice Conversion based Feature Disentanglement using
Variational Autoencoder [2.4975981795360847]
そこで本稿では,多くの音声変換に対処するために,特徴のゆがみに基づく新しい手法を提案する。
本手法は、話者のアイデンティティと言語内容とを発話から切り離す能力を有する。
多くのソーススピーカーから単一のオートエンコーダネットワークで多くのターゲットスピーカーに変換することができる。
論文 参考訳(メタデータ) (2021-07-11T13:31:16Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - NVC-Net: End-to-End Adversarial Voice Conversion [7.14505983271756]
NVC-Netは、任意の長さの生音声波形上で直接音声変換を行うエンド・ツー・エンドの敵対ネットワークである。
我々のモデルはNVIDIA V100 GPU上で3600kHz以上の速度でサンプルを生成することができ、最先端の手法よりも桁違いに高速である。
論文 参考訳(メタデータ) (2021-06-02T07:19:58Z) - VAW-GAN for Singing Voice Conversion with Non-parallel Training Data [81.79070894458322]
VAW-GANに基づく歌声変換フレームワークを提案する。
我々はエンコーダを訓練し、歌手のアイデンティティと歌唱の韻律(F0)を音声コンテンツから切り離す。
シンガーIDとF0を条件付けすることにより、デコーダは、目に見えないターゲットシンガーIDの出力スペクトル特徴を生成する。
論文 参考訳(メタデータ) (2020-08-10T09:44:10Z) - VQVC+: One-Shot Voice Conversion by Vector Quantization and U-Net
architecture [71.45920122349628]
自動エンコーダベースのVC手法は、話者のアイデンティティを付与することなく、入力音声中の話者とコンテンツをアンタングルする。
自動エンコーダベースのVCシステムでは,U-Netアーキテクチャを用いて音質を向上する。
論文 参考訳(メタデータ) (2020-06-07T14:01:16Z) - Many-to-Many Voice Transformer Network [55.17770019619078]
本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。
これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
論文 参考訳(メタデータ) (2020-05-18T04:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。