論文の概要: DiffSVC: A Diffusion Probabilistic Model for Singing Voice Conversion
- arxiv url: http://arxiv.org/abs/2105.13871v1
- Date: Fri, 28 May 2021 14:26:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-31 15:37:46.148436
- Title: DiffSVC: A Diffusion Probabilistic Model for Singing Voice Conversion
- Title(参考訳): DiffSVC: 歌声変換のための拡散確率モデル
- Authors: Songxiang Liu, Yuewen Cao, Dan Su, Helen Meng
- Abstract要約: 本稿では拡散確率モデルに基づくSVCシステムであるDiffSVCを提案する。
DiffSVCでは、破壊されたメルスペクトログラムとその対応するステップ情報を入力として、付加されたガウスノイズを予測するデノナイジングモジュールを訓練する。
実験により、DiffSVCは、現在の最先端SVCアプローチと自然性および音声類似性の観点から、優れた変換性能が得られることが示された。
- 参考スコア(独自算出の注目度): 51.83469048737548
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Singing voice conversion (SVC) is one promising technique which can enrich
the way of human-computer interaction by endowing a computer the ability to
produce high-fidelity and expressive singing voice. In this paper, we propose
DiffSVC, an SVC system based on denoising diffusion probabilistic model.
DiffSVC uses phonetic posteriorgrams (PPGs) as content features. A denoising
module is trained in DiffSVC, which takes destroyed mel spectrogram produced by
the diffusion/forward process and its corresponding step information as input
to predict the added Gaussian noise. We use PPGs, fundamental frequency
features and loudness features as auxiliary input to assist the denoising
process. Experiments show that DiffSVC can achieve superior conversion
performance in terms of naturalness and voice similarity to current
state-of-the-art SVC approaches.
- Abstract(参考訳): 歌声変換(SVC)は、コンピュータに高忠実で表現力のある歌声を作り出す能力を与えることによって、人間とコンピュータの相互作用の方法を強化することができる有望な手法である。
本稿では,拡散確率モデルに基づくSVCシステムであるDiffSVCを提案する。
DiffSVCはコンテンツ機能として音声後部グラフ(PPG)を使用している。
DiffSVCでは、拡散/フォワードプロセスが生成するメルスペクトルと対応するステップ情報とを入力としてデノナイジングモジュールを訓練し、付加されたガウスノイズを予測する。
我々は, ppg, 基本周波数特徴, ラウドネス特徴を補助入力として, 雑音化過程を補助する。
実験により、DiffSVCは、現在の最先端SVCアプローチと自然性および音声類似性の観点から、優れた変換性能が得られることが示された。
関連論文リスト
- VQalAttent: a Transparent Speech Generation Pipeline based on Transformer-learned VQ-VAE Latent Space [0.49109372384514843]
VQalAttentは、調整可能な性能と解釈性を備えた偽音声を生成するために設計された軽量モデルである。
以上の結果から,VQalAttentが限られた計算資源を持つ可知音声サンプルを生成する能力を示した。
論文 参考訳(メタデータ) (2024-11-22T00:21:39Z) - FastVoiceGrad: One-step Diffusion-Based Voice Conversion with Adversarial Conditional Diffusion Distillation [28.847324588324152]
我々はFastVoiceGradを提案する。FastVoiceGradは1ステップの拡散型VCで、数十から1までのイテレーション数を削減します。
FastVoiceGradは、推論速度を向上しながら、従来の多段階拡散ベースVCに匹敵する、あるいは同等の能力を発揮する。
論文 参考訳(メタデータ) (2024-09-03T19:19:48Z) - SPA-SVC: Self-supervised Pitch Augmentation for Singing Voice Conversion [12.454955437047573]
歌声変換(SPA-SVC)のための自己教師付きピッチ拡張法を提案する。
サイクルピッチシフトトレーニング戦略と構造類似度指数(SSIM)の損失をSVCモデルに導入し,その性能を効果的に向上する。
歌唱データセットM4Singerの実験結果から,提案手法はモデル性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-06-09T08:34:01Z) - SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with
Adaptive Noise Spectral Shaping [51.698273019061645]
SpecGradは拡散雑音に適応し、その時間変化スペクトル包絡が条件付き対数メル分光器に近づく。
時間周波数領域で処理され、計算コストは従来のDDPMベースのニューラルボコーダとほぼ同じである。
論文 参考訳(メタデータ) (2022-03-31T02:08:27Z) - Towards High-fidelity Singing Voice Conversion with Acoustic Reference
and Contrastive Predictive Coding [6.278338686038089]
非並列歌唱音声変換システムでは,音声後部グラフに基づく手法が広く普及している。
PPGの音響情報が不足しているため、変換された歌声のスタイルと自然性はまだ限られている。
提案モデルでは,歌声変換の自然性や,対象歌唱者との類似性を大幅に向上させることができる。
論文 参考訳(メタデータ) (2021-10-10T10:27:20Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z) - Diffusion-Based Representation Learning [65.55681678004038]
教師付き信号のない表現学習を実現するために,デノナイズスコアマッチングフレームワークを拡張した。
対照的に、拡散に基づく表現学習は、デノナイジングスコアマッチング目的の新しい定式化に依存している。
同じ手法を用いて,半教師付き画像分類における最先端モデルの改善を実現する無限次元潜在符号の学習を提案する。
論文 参考訳(メタデータ) (2021-05-29T09:26:02Z) - DiffSinger: Diffusion Acoustic Model for Singing Voice Synthesis [53.19363127760314]
DiffSingerは、音楽スコアで調整されたメログラムにノイズを反復的に変換するパラメータ化されたマルコフチェーンです。
中国の歌唱データセットで行った評価は、DiffSingerが最先端のSVSワークを顕著な差で上回っていることを示している。
論文 参考訳(メタデータ) (2021-05-06T05:21:42Z) - Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文 参考訳(メタデータ) (2020-08-07T11:02:07Z) - Audio-Visual Decision Fusion for WFST-based and seq2seq Models [3.2771898634434997]
雑音下では、音声認識システムは高い単語誤り率(WER)に悩まされる
提案手法は,推測時における音声と視覚のモダリティから情報を融合する新しい手法である。
提案手法は音響のみのWERよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-01-29T13:45:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。