論文の概要: DDDM-VC: Decoupled Denoising Diffusion Models with Disentangled
Representation and Prior Mixup for Verified Robust Voice Conversion
- arxiv url: http://arxiv.org/abs/2305.15816v1
- Date: Thu, 25 May 2023 07:59:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 16:38:03.250465
- Title: DDDM-VC: Decoupled Denoising Diffusion Models with Disentangled
Representation and Prior Mixup for Verified Robust Voice Conversion
- Title(参考訳): DDDM-VC: 検証ロバスト音声変換のためのアンタングル表現と事前混合を用いた分離拡散モデル
- Authors: Ha-Yeong Choi, Sang-Hoon Lee, Seong-Whan Lee
- Abstract要約: 拡散に基づく生成モデルは近年,強力な生成性能を示した。
生成モデルの各属性の特定のスタイルを制御することは依然として困難である。
本稿では,各属性の表現スタイルを生成モデルで制御可能な非結合拡散モデルを提案する。
- 参考スコア(独自算出の注目度): 29.18355147307535
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Diffusion-based generative models have exhibited powerful generative
performance in recent years. However, as many attributes exist in the data
distribution and owing to several limitations of sharing the model parameters
across all levels of the generation process, it remains challenging to control
specific styles for each attribute. To address the above problem, this paper
presents decoupled denoising diffusion models (DDDMs) with disentangled
representations, which can control the style for each attribute in generative
models. We apply DDDMs to voice conversion (VC) tasks to address the challenges
of disentangling and controlling each speech attribute (e.g., linguistic
information, intonation, and timbre). First, we use a self-supervised
representation to disentangle the speech representation. Subsequently, the
DDDMs are applied to resynthesize the speech from the disentangled
representations for denoising with respect to each attribute. Moreover, we also
propose the prior mixup for robust voice style transfer, which uses the
converted representation of the mixed style as a prior distribution for the
diffusion models. The experimental results reveal that our method outperforms
publicly available VC models. Furthermore, we show that our method provides
robust generative performance regardless of the model size. Audio samples are
available https://hayeong0.github.io/DDDM-VC-demo/.
- Abstract(参考訳): 拡散に基づく生成モデルは近年,強力な生成性能を示した。
しかし、データ分散には多くの属性があり、生成プロセスの全レベルにわたってモデルパラメータを共有するといういくつかの制限があるため、各属性の特定のスタイルを制御するのは難しい。
上記の問題に対処するため, 生成モデルにおける各属性のスタイルを制御可能な非結合拡散モデル (DDDM) と非共役拡散モデル (DDDM) を提案する。
音声変換(VC)タスクにDDDMを適用し、各音声属性(言語情報、イントネーション、音色など)を分離・制御する課題に対処する。
まず,自己教師付き表現を用いて音声表現をアンタングルする。
その後、DDDMは、各属性を識別するために、アンタングル表現から音声を再合成するために適用される。
さらに,拡散モデルの事前分布として混合スタイルの表現を変換したロバストな音声スタイル転送のための先行ミックスアップを提案する。
実験の結果,本手法は公開VCモデルよりも優れていた。
さらに,本手法はモデルサイズに関係なく頑健な生成性能を提供することを示す。
オーディオサンプルはhttps://hayeong0.github.io/dddm-vc-demo/。
関連論文リスト
- Ensembling Diffusion Models via Adaptive Feature Aggregation [18.94941244857961]
より強力な生成能力を生み出すために複数の高品質モデルを活用することは価値があるが、広く研究されていない。
既存のメソッドは主にパラメータマージ戦略を採用して、新しい静的モデルを生成する。
本稿では,様々な状態に応じて複数のモデルのコントリビューションを動的に調整するアダプティブ・フィーチャー・アグリゲーション(AFA)を提案する。
論文 参考訳(メタデータ) (2024-05-27T11:55:35Z) - Denoising Diffusion Bridge Models [54.87947768074036]
拡散モデルは、プロセスを使用してデータにノイズをマッピングする強力な生成モデルである。
画像編集のような多くのアプリケーションでは、モデル入力はランダムノイズではない分布から来る。
本研究では, DDBM(Denoising Diffusion Bridge Models)を提案する。
論文 参考訳(メタデータ) (2023-09-29T03:24:24Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - DiffusionBERT: Improving Generative Masked Language Models with
Diffusion Models [81.84866217721361]
DiffusionBERTは離散拡散モデルに基づく新しい生成マスク付き言語モデルである。
本稿では,各ステップに付加される雑音の度合いを制御する前方拡散プロセスのための新しいノイズスケジュールを提案する。
非条件テキスト生成の実験では、DiffusionBERTは既存のテキスト拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-11-28T03:25:49Z) - f-DM: A Multi-stage Diffusion Model via Progressive Signal
Transformation [56.04628143914542]
拡散モデル(DM)は、最近、様々な領域で生成モデリングを行うためのSoTAツールとして登場した。
本稿では、プログレッシブ信号変換が可能なDMの一般化されたファミリであるf-DMを提案する。
我々は、ダウンサンプリング、ぼやけ、学習された変換を含む様々な機能を持つ画像生成タスクにf-DMを適用した。
論文 参考訳(メタデータ) (2022-10-10T18:49:25Z) - Few-Shot Diffusion Models [15.828257653106537]
条件付きDDPMを利用した数ショット生成のためのフレームワークであるFew-Shot Diffusion Models (FSDM)を提案する。
FSDMは、画像パッチ情報を集約することにより、所定のクラスからの小さな画像集合に条件付けされた生成プロセスに適応するように訓練される。
FSDMが数ショット生成を行い、新しいデータセットに転送できることを実証的に示す。
論文 参考訳(メタデータ) (2022-05-30T23:20:33Z) - Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。
複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。
我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-30T22:44:12Z) - Unsupervised Speech Enhancement using Dynamical Variational
Auto-Encoders [29.796695365217893]
動的変分自動エンコーダ(Dynamical Variational Auto-Encoders, DVAE)は、潜伏変数を持つ深部生成モデルのクラスである。
DVAEの最も一般的な形式に基づく教師なし音声強調アルゴリズムを提案する。
音声強調を行うための変分予測最大化アルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-06-23T09:48:38Z) - Diffusion-Based Representation Learning [65.55681678004038]
教師付き信号のない表現学習を実現するために,デノナイズスコアマッチングフレームワークを拡張した。
対照的に、拡散に基づく表現学習は、デノナイジングスコアマッチング目的の新しい定式化に依存している。
同じ手法を用いて,半教師付き画像分類における最先端モデルの改善を実現する無限次元潜在符号の学習を提案する。
論文 参考訳(メタデータ) (2021-05-29T09:26:02Z) - Speech Prediction in Silent Videos using Variational Autoencoders [29.423462898526605]
我々はサイレントビデオで音声を生成するモデルを提案する。
提案モデルは、繰り返しニューラルネットワークと変分深部生成モデルを組み合わせて、聴覚の条件分布を学習する。
標準ベンチマークに基づくGRIDデータセット上で,本モデルの性能を示す。
論文 参考訳(メタデータ) (2020-11-14T17:09:03Z) - Deep Variational Generative Models for Audio-visual Speech Separation [33.227204390773316]
クリーン音声の音声・視覚生成モデルに基づく教師なし手法を提案する。
視覚情報をよりよく活用するために、混合音声から潜伏変数の後部を推定する。
実験の結果,非教師付きVAE法はNMF法よりも分離性能がよいことがわかった。
論文 参考訳(メタデータ) (2020-08-17T10:12:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。