論文の概要: Diff-HierVC: Diffusion-based Hierarchical Voice Conversion with Robust
Pitch Generation and Masked Prior for Zero-shot Speaker Adaptation
- arxiv url: http://arxiv.org/abs/2311.04693v1
- Date: Wed, 8 Nov 2023 14:02:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 15:51:28.185766
- Title: Diff-HierVC: Diffusion-based Hierarchical Voice Conversion with Robust
Pitch Generation and Masked Prior for Zero-shot Speaker Adaptation
- Title(参考訳): Diff-HierVC:ゼロショット話者適応のためのロバストピッチ生成とマスク前処理による拡散型階層音声変換
- Authors: Ha-Yeong Choi, Sang-Hoon Lee, Seong-Whan Lee
- Abstract要約: 2つの拡散モデルに基づく階層型VCシステムであるDiff-HierVCを紹介する。
我々のモデルは、ゼロショットVCシナリオにおいて、0.83%のCERと3.29%のEERを達成する。
- 参考スコア(独自算出の注目度): 41.98697872087318
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Although voice conversion (VC) systems have shown a remarkable ability to
transfer voice style, existing methods still have an inaccurate pitch and low
speaker adaptation quality. To address these challenges, we introduce
Diff-HierVC, a hierarchical VC system based on two diffusion models. We first
introduce DiffPitch, which can effectively generate F0 with the target voice
style. Subsequently, the generated F0 is fed to DiffVoice to convert the speech
with a target voice style. Furthermore, using the source-filter encoder, we
disentangle the speech and use the converted Mel-spectrogram as a data-driven
prior in DiffVoice to improve the voice style transfer capacity. Finally, by
using the masked prior in diffusion models, our model can improve the speaker
adaptation quality. Experimental results verify the superiority of our model in
pitch generation and voice style transfer performance, and our model also
achieves a CER of 0.83% and EER of 3.29% in zero-shot VC scenarios.
- Abstract(参考訳): 音声変換(VC)システムは音声スタイルを伝達する優れた能力を示しているが、既存の手法は不正確なピッチと低話者適応性を持っている。
これらの課題に対処するために,2つの拡散モデルに基づく階層型VCシステムであるDiff-HierVCを紹介する。
まず、ターゲット音声スタイルでF0を効果的に生成できるDiffPitchを紹介する。
その後、生成されたF0をDiffVoiceに供給し、ターゲット音声スタイルで変換する。
さらに、ソースフィルタエンコーダを用いて、変換したMel-spectrogramをDiffVoiceの先行データとして使用し、音声スタイルの転送能力を向上させる。
最後に,拡散モデルにおいて先行マスクを用いることで,話者適応性を向上させることができる。
実験の結果, ピッチ生成と音声転送性能におけるモデルの優位性が検証され, ゼロショットvcのシナリオでは, cer が0.83%, eer が3.29%となった。
関連論文リスト
- Taming Data and Transformers for Audio Generation [49.54707963286065]
AutoCapは高品質で効率的なオーディオキャプションモデルである。
GenAuはスケーラブルなトランスフォーマーベースのオーディオ生成アーキテクチャである。
57Mの環境オーディオクリップをコンパイルし、最大のオーディオテキストデータセットであるAutoReCap-XLを作成します。
論文 参考訳(メタデータ) (2024-06-27T17:58:54Z) - Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。
本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。
実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-06-01T06:40:22Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - HierVST: Hierarchical Adaptive Zero-shot Voice Style Transfer [25.966328901566815]
階層型適応型ゼロショットVSTモデルであるHierVSTを提案する。
テキストの書き起こしがなければ、モデルのトレーニングには音声データセットのみを使用します。
階層的な適応構造により、モデルは新しい音声スタイルに適応し、音声を段階的に変換することができる。
論文 参考訳(メタデータ) (2023-07-30T08:49:55Z) - DisC-VC: Disentangled and F0-Controllable Neural Voice Conversion [17.83563578034567]
補助的ネットワークを伴う変分オートコーダに基づく音声変換モデルを提案する。
提案手法の有効性を客観評価および主観評価により示す。
論文 参考訳(メタデータ) (2022-10-20T07:30:07Z) - StarGAN-ZSVC: Towards Zero-Shot Voice Conversion in Low-Resource
Contexts [32.170748231414365]
より広い範囲の文脈で有効にするためには、音声変換システムは並列データにアクセスせずに訓練する必要がある。
本稿では,GAN(Generative Adversarial Network)に基づく最新の音声変換モデルを拡張する。
非常に少ないデータで訓練されたモデルであっても、リアルタイムゼロショット音声変換が可能であることを示す。
論文 参考訳(メタデータ) (2021-05-31T18:21:28Z) - DiffSVC: A Diffusion Probabilistic Model for Singing Voice Conversion [51.83469048737548]
本稿では拡散確率モデルに基づくSVCシステムであるDiffSVCを提案する。
DiffSVCでは、破壊されたメルスペクトログラムとその対応するステップ情報を入力として、付加されたガウスノイズを予測するデノナイジングモジュールを訓練する。
実験により、DiffSVCは、現在の最先端SVCアプローチと自然性および音声類似性の観点から、優れた変換性能が得られることが示された。
論文 参考訳(メタデータ) (2021-05-28T14:26:40Z) - F0-consistent many-to-many non-parallel voice conversion via conditional
autoencoder [53.901873501494606]
自動エンコーダによる音声変換を改良し,コンテンツ,F0,話者識別を同時に行う。
我々はF0輪郭を制御でき、ターゲット話者と一致したF0音声を生成し、品質と類似性を大幅に向上させることができる。
論文 参考訳(メタデータ) (2020-04-15T22:00:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。