論文の概要: Diff-HierVC: Diffusion-based Hierarchical Voice Conversion with Robust
Pitch Generation and Masked Prior for Zero-shot Speaker Adaptation
- arxiv url: http://arxiv.org/abs/2311.04693v1
- Date: Wed, 8 Nov 2023 14:02:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 15:51:28.185766
- Title: Diff-HierVC: Diffusion-based Hierarchical Voice Conversion with Robust
Pitch Generation and Masked Prior for Zero-shot Speaker Adaptation
- Title(参考訳): Diff-HierVC:ゼロショット話者適応のためのロバストピッチ生成とマスク前処理による拡散型階層音声変換
- Authors: Ha-Yeong Choi, Sang-Hoon Lee, Seong-Whan Lee
- Abstract要約: 2つの拡散モデルに基づく階層型VCシステムであるDiff-HierVCを紹介する。
我々のモデルは、ゼロショットVCシナリオにおいて、0.83%のCERと3.29%のEERを達成する。
- 参考スコア(独自算出の注目度): 41.98697872087318
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Although voice conversion (VC) systems have shown a remarkable ability to
transfer voice style, existing methods still have an inaccurate pitch and low
speaker adaptation quality. To address these challenges, we introduce
Diff-HierVC, a hierarchical VC system based on two diffusion models. We first
introduce DiffPitch, which can effectively generate F0 with the target voice
style. Subsequently, the generated F0 is fed to DiffVoice to convert the speech
with a target voice style. Furthermore, using the source-filter encoder, we
disentangle the speech and use the converted Mel-spectrogram as a data-driven
prior in DiffVoice to improve the voice style transfer capacity. Finally, by
using the masked prior in diffusion models, our model can improve the speaker
adaptation quality. Experimental results verify the superiority of our model in
pitch generation and voice style transfer performance, and our model also
achieves a CER of 0.83% and EER of 3.29% in zero-shot VC scenarios.
- Abstract(参考訳): 音声変換(VC)システムは音声スタイルを伝達する優れた能力を示しているが、既存の手法は不正確なピッチと低話者適応性を持っている。
これらの課題に対処するために,2つの拡散モデルに基づく階層型VCシステムであるDiff-HierVCを紹介する。
まず、ターゲット音声スタイルでF0を効果的に生成できるDiffPitchを紹介する。
その後、生成されたF0をDiffVoiceに供給し、ターゲット音声スタイルで変換する。
さらに、ソースフィルタエンコーダを用いて、変換したMel-spectrogramをDiffVoiceの先行データとして使用し、音声スタイルの転送能力を向上させる。
最後に,拡散モデルにおいて先行マスクを用いることで,話者適応性を向上させることができる。
実験の結果, ピッチ生成と音声転送性能におけるモデルの優位性が検証され, ゼロショットvcのシナリオでは, cer が0.83%, eer が3.29%となった。
関連論文リスト
- Speech-to-Speech Translation with Discrete-Unit-Based Style Transfer [56.933140743757555]
個別の自己教師付き表現を用いた音声音声合成(S2ST)は顕著な精度を達成している。
高品質な話者並列データの不足は、ソースとターゲットの音声間のスタイル伝達を学習する上での課題となる。
本稿では,自己教師型モデルから独立した単位をベースとした音響言語モデルと,スタイル伝達のためのニューラルネットワークを用いたS2STフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-14T09:52:08Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - HierVST: Hierarchical Adaptive Zero-shot Voice Style Transfer [25.966328901566815]
階層型適応型ゼロショットVSTモデルであるHierVSTを提案する。
テキストの書き起こしがなければ、モデルのトレーニングには音声データセットのみを使用します。
階層的な適応構造により、モデルは新しい音声スタイルに適応し、音声を段階的に変換することができる。
論文 参考訳(メタデータ) (2023-07-30T08:49:55Z) - DisC-VC: Disentangled and F0-Controllable Neural Voice Conversion [17.83563578034567]
補助的ネットワークを伴う変分オートコーダに基づく音声変換モデルを提案する。
提案手法の有効性を客観評価および主観評価により示す。
論文 参考訳(メタデータ) (2022-10-20T07:30:07Z) - HiFi-VC: High Quality ASR-Based Voice Conversion [0.0]
音声変換パイプラインを新たに提案する。
提案手法では,音声認識機能,ピッチ追跡,最先端波形予測モデルを用いる。
論文 参考訳(メタデータ) (2022-03-31T10:45:32Z) - StarGAN-ZSVC: Towards Zero-Shot Voice Conversion in Low-Resource
Contexts [32.170748231414365]
より広い範囲の文脈で有効にするためには、音声変換システムは並列データにアクセスせずに訓練する必要がある。
本稿では,GAN(Generative Adversarial Network)に基づく最新の音声変換モデルを拡張する。
非常に少ないデータで訓練されたモデルであっても、リアルタイムゼロショット音声変換が可能であることを示す。
論文 参考訳(メタデータ) (2021-05-31T18:21:28Z) - DiffSVC: A Diffusion Probabilistic Model for Singing Voice Conversion [51.83469048737548]
本稿では拡散確率モデルに基づくSVCシステムであるDiffSVCを提案する。
DiffSVCでは、破壊されたメルスペクトログラムとその対応するステップ情報を入力として、付加されたガウスノイズを予測するデノナイジングモジュールを訓練する。
実験により、DiffSVCは、現在の最先端SVCアプローチと自然性および音声類似性の観点から、優れた変換性能が得られることが示された。
論文 参考訳(メタデータ) (2021-05-28T14:26:40Z) - Many-to-Many Voice Transformer Network [55.17770019619078]
本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。
これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
論文 参考訳(メタデータ) (2020-05-18T04:02:08Z) - F0-consistent many-to-many non-parallel voice conversion via conditional
autoencoder [53.901873501494606]
自動エンコーダによる音声変換を改良し,コンテンツ,F0,話者識別を同時に行う。
我々はF0輪郭を制御でき、ターゲット話者と一致したF0音声を生成し、品質と類似性を大幅に向上させることができる。
論文 参考訳(メタデータ) (2020-04-15T22:00:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。