Fugu-MT 論文翻訳(概要): Diff-HierVC: Diffusion-based Hierarchical Voice Conversion with Robust Pitch Generation and Masked Prior for Zero-shot Speaker Adaptation

論文の概要: Diff-HierVC: Diffusion-based Hierarchical Voice Conversion with Robust Pitch Generation and Masked Prior for Zero-shot Speaker Adaptation

arxiv url: http://arxiv.org/abs/2311.04693v1
Date: Wed, 8 Nov 2023 14:02:53 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-09 15:51:28.185766
Title: Diff-HierVC: Diffusion-based Hierarchical Voice Conversion with Robust Pitch Generation and Masked Prior for Zero-shot Speaker Adaptation
Title（参考訳）: Diff-HierVC:ゼロショット話者適応のためのロバストピッチ生成とマスク前処理による拡散型階層音声変換
Authors: Ha-Yeong Choi, Sang-Hoon Lee, Seong-Whan Lee
Abstract要約: 2つの拡散モデルに基づく階層型VCシステムであるDiff-HierVCを紹介する。我々のモデルは、ゼロショットVCシナリオにおいて、0.83%のCERと3.29%のEERを達成する。
参考スコア（独自算出の注目度）: 41.98697872087318
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Although voice conversion (VC) systems have shown a remarkable ability to transfer voice style, existing methods still have an inaccurate pitch and low speaker adaptation quality. To address these challenges, we introduce Diff-HierVC, a hierarchical VC system based on two diffusion models. We first introduce DiffPitch, which can effectively generate F0 with the target voice style. Subsequently, the generated F0 is fed to DiffVoice to convert the speech with a target voice style. Furthermore, using the source-filter encoder, we disentangle the speech and use the converted Mel-spectrogram as a data-driven prior in DiffVoice to improve the voice style transfer capacity. Finally, by using the masked prior in diffusion models, our model can improve the speaker adaptation quality. Experimental results verify the superiority of our model in pitch generation and voice style transfer performance, and our model also achieves a CER of 0.83% and EER of 3.29% in zero-shot VC scenarios.
Abstract（参考訳）: 音声変換(VC)システムは音声スタイルを伝達する優れた能力を示しているが、既存の手法は不正確なピッチと低話者適応性を持っている。これらの課題に対処するために,2つの拡散モデルに基づく階層型VCシステムであるDiff-HierVCを紹介する。まず、ターゲット音声スタイルでF0を効果的に生成できるDiffPitchを紹介する。その後、生成されたF0をDiffVoiceに供給し、ターゲット音声スタイルで変換する。さらに、ソースフィルタエンコーダを用いて、変換したMel-spectrogramをDiffVoiceの先行データとして使用し、音声スタイルの転送能力を向上させる。最後に,拡散モデルにおいて先行マスクを用いることで,話者適応性を向上させることができる。実験の結果, ピッチ生成と音声転送性能におけるモデルの優位性が検証され, ゼロショットvcのシナリオでは, cer が0.83%, eer が3.29%となった。

関連論文リスト

Taming Data and Transformers for Audio Generation [49.54707963286065]
AutoCapは高品質で効率的なオーディオキャプションモデルである。 GenAuはスケーラブルなトランスフォーマーベースのオーディオ生成アーキテクチャである。 57Mの環境オーディオクリップをコンパイルし、最大のオーディオテキストデータセットであるAutoReCap-XLを作成します。
論文参考訳（メタデータ） (2024-06-27T17:58:54Z)
Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2024-06-01T06:40:22Z)
Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文参考訳（メタデータ） (2024-03-14T01:16:32Z)
From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文参考訳（メタデータ） (2023-08-02T22:14:29Z)
HierVST: Hierarchical Adaptive Zero-shot Voice Style Transfer [25.966328901566815]
階層型適応型ゼロショットVSTモデルであるHierVSTを提案する。テキストの書き起こしがなければ、モデルのトレーニングには音声データセットのみを使用します。階層的な適応構造により、モデルは新しい音声スタイルに適応し、音声を段階的に変換することができる。
論文参考訳（メタデータ） (2023-07-30T08:49:55Z)
DisC-VC: Disentangled and F0-Controllable Neural Voice Conversion [17.83563578034567]
補助的ネットワークを伴う変分オートコーダに基づく音声変換モデルを提案する。提案手法の有効性を客観評価および主観評価により示す。
論文参考訳（メタデータ） (2022-10-20T07:30:07Z)
StarGAN-ZSVC: Towards Zero-Shot Voice Conversion in Low-Resource Contexts [32.170748231414365]
より広い範囲の文脈で有効にするためには、音声変換システムは並列データにアクセスせずに訓練する必要がある。本稿では,GAN(Generative Adversarial Network)に基づく最新の音声変換モデルを拡張する。非常に少ないデータで訓練されたモデルであっても、リアルタイムゼロショット音声変換が可能であることを示す。
論文参考訳（メタデータ） (2021-05-31T18:21:28Z)
DiffSVC: A Diffusion Probabilistic Model for Singing Voice Conversion [51.83469048737548]
本稿では拡散確率モデルに基づくSVCシステムであるDiffSVCを提案する。 DiffSVCでは、破壊されたメルスペクトログラムとその対応するステップ情報を入力として、付加されたガウスノイズを予測するデノナイジングモジュールを訓練する。実験により、DiffSVCは、現在の最先端SVCアプローチと自然性および音声類似性の観点から、優れた変換性能が得られることが示された。
論文参考訳（メタデータ） (2021-05-28T14:26:40Z)
F0-consistent many-to-many non-parallel voice conversion via conditional autoencoder [53.901873501494606]
自動エンコーダによる音声変換を改良し,コンテンツ,F0,話者識別を同時に行う。我々はF0輪郭を制御でき、ターゲット話者と一致したF0音声を生成し、品質と類似性を大幅に向上させることができる。
論文参考訳（メタデータ） (2020-04-15T22:00:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。