論文の概要: Energy-Based Models For Speech Synthesis
- arxiv url: http://arxiv.org/abs/2310.12765v1
- Date: Thu, 19 Oct 2023 14:10:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-20 15:06:40.430382
- Title: Energy-Based Models For Speech Synthesis
- Title(参考訳): 音声合成のためのエネルギーモデル
- Authors: Wanli Sun, Zehai Tu, Anton Ragni
- Abstract要約: 本稿では、エネルギーベースモデル(EBMs)と呼ばれる別のメンバーで利用可能な非ARモデルの範囲を広げる。
高性能なARモデルの使用を含む、効果的な負のサンプルを生成するための多くの戦略を提案する。
- 参考スコア(独自算出の注目度): 6.769420049627968
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently there has been a lot of interest in non-autoregressive (non-AR)
models for speech synthesis, such as FastSpeech 2 and diffusion models. Unlike
AR models, these models do not have autoregressive dependencies among outputs
which makes inference efficient. This paper expands the range of available
non-AR models with another member called energy-based models (EBMs). The paper
describes how noise contrastive estimation, which relies on the comparison
between positive and negative samples, can be used to train EBMs. It proposes a
number of strategies for generating effective negative samples, including using
high-performing AR models. It also describes how sampling from EBMs can be
performed using Langevin Markov Chain Monte-Carlo (MCMC). The use of Langevin
MCMC enables to draw connections between EBMs and currently popular diffusion
models. Experiments on LJSpeech dataset show that the proposed approach offers
improvements over Tacotron 2.
- Abstract(参考訳): 近年,FastSpeech 2や拡散モデルなど,音声合成のための非自己回帰(非AR)モデルへの関心が高まっている。
ARモデルとは異なり、これらのモデルは推論を効率的にするアウトプット間に自己回帰依存を持たない。
本稿では,エネルギーベースモデル (EBMs) と呼ばれる,利用可能な非ARモデルの範囲を広げる。
本稿では, 正試料と負試料の比較に依拠するノイズコントラスト推定が, EBMの訓練にどのように用いられるかを説明する。
高性能なARモデルの使用を含む、効果的な負のサンプルを生成するための多くの戦略を提案する。
また、Langevin Markov Chain Monte-Carlo (MCMC) を用いて、EMMからのサンプリングを行う方法も説明している。
Langevin MCMCは、EMMと現在普及している拡散モデルの間の接続を描画することができる。
LJSpeechデータセットの実験は、提案されたアプローチがTacotron 2.0よりも改善されていることを示している。
関連論文リスト
- Generalized Contrastive Divergence: Joint Training of Energy-Based Model
and Diffusion Model through Inverse Reinforcement Learning [13.22531381403974]
Generalized Contrastive Divergence (GCD) はエネルギーベースモデル(EBM)とサンプルを同時にトレーニングするための新しい目的関数である。
EBMと拡散モデルの両方にジョイントトレーニングが有用であることを示す予備的かつ有望な結果を示す。
論文 参考訳(メタデータ) (2023-12-06T10:10:21Z) - Soft Mixture Denoising: Beyond the Expressive Bottleneck of Diffusion
Models [76.46246743508651]
我々は,現在の拡散モデルが後方認知において表現力のあるボトルネックを持っていることを示した。
本稿では,後方復調のための表現的かつ効率的なモデルであるソフトミキシング・デノナイジング(SMD)を導入する。
論文 参考訳(メタデータ) (2023-09-25T12:03:32Z) - Learning Energy-Based Models by Cooperative Diffusion Recovery Likelihood [64.95663299945171]
高次元データに基づくエネルギーベースモデル(EBM)の訓練は、困難かつ時間を要する可能性がある。
EBMと、GANや拡散モデルのような他の生成フレームワークとの間には、サンプル品質に顕著なギャップがある。
本研究では,協調拡散回復可能性 (CDRL) を提案する。
論文 参考訳(メタデータ) (2023-09-10T22:05:24Z) - Adversarial Training of Denoising Diffusion Model Using Dual
Discriminators for High-Fidelity Multi-Speaker TTS [0.0]
拡散モデルは確率論的アプローチにより高品質なデータを生成することができる。
これは、多くの時間ステップを必要とするため、生成速度が遅くなるという欠点に悩まされる。
本稿では、逆過程の分布を学習する拡散判別器と、生成されたデータの分布を学習するスペクトログラム判別器の2つの識別器を用いた音声合成モデルを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:22:04Z) - MCMC-Correction of Score-Based Diffusion Models for Model Composition [2.8544513613730205]
拡散モデルは、スコアやエネルギー関数の観点からパラメータ化することができる。
本稿では,スコアパラメータ化の維持とエネルギーベースの受理確率の計算を提案する。
提案手法を2次元実験で評価した結果,エネルギーパラメータ化よりも類似性や性能が良好であることが判明した。
論文 参考訳(メタデータ) (2023-07-26T07:50:41Z) - An Efficient Membership Inference Attack for the Diffusion Model by
Proximal Initialization [58.88327181933151]
本稿では,効率的なクエリベースのメンバシップ推論攻撃(MIA)を提案する。
実験結果から,提案手法は離散時間と連続時間の両方の拡散モデル上で,2つのクエリで競合性能を達成できることが示唆された。
我々の知る限り、本研究はテキスト音声タスクにおけるMIAへの拡散モデルのロバスト性について初めて研究するものである。
論文 参考訳(メタデータ) (2023-05-26T16:38:48Z) - Moment Matching Denoising Gibbs Sampling [14.75945343063504]
エネルギーベースモデル(EBM)は、複雑なデータ分散をモデル化するための汎用的なフレームワークを提供する。
スケーラブルなEMMトレーニングのための広く使われているDenoising Score Matching (DSM) 法は、矛盾の問題に悩まされている。
モーメントマッチングを用いた効率的なサンプリングフレームワーク(pseudo)-Gibbsサンプリングを提案する。
論文 参考訳(メタデータ) (2023-05-19T12:58:25Z) - Reduce, Reuse, Recycle: Compositional Generation with Energy-Based
Diffusion Models and MCMC [106.06185677214353]
拡散モデルは、多くの領域において、生成モデリングの一般的なアプローチとなっている。
本稿では,新しい構成演算子の利用を可能にする拡散モデルのエネルギーベースパラメータ化を提案する。
これらのサンプルは、幅広い問題にまたがって構成生成の顕著な改善につながっている。
論文 参考訳(メタデータ) (2023-02-22T18:48:46Z) - Your Autoregressive Generative Model Can be Better If You Treat It as an
Energy-Based One [83.5162421521224]
本稿では,自己回帰生成モデルの学習のための独自のE-ARM法を提案する。
E-ARMは、よく設計されたエネルギーベースの学習目標を活用する。
我々は、E-ARMを効率的に訓練でき、露光バイアス問題を緩和できることを示した。
論文 参考訳(メタデータ) (2022-06-26T10:58:41Z) - Particle Dynamics for Learning EBMs [83.59335980576637]
エネルギーベースモデリングは教師なし学習への有望なアプローチであり、単一のモデルから多くの下流アプリケーションを生み出す。
コントラスト的アプローチ(contrastive approach)"でエネルギーベースモデルを学習する際の主な困難は、各イテレーションで現在のエネルギー関数からサンプルを生成することである。
本稿では,これらのサンプルを取得し,現行モデルからの粗大なMCMCサンプリングを回避するための代替手法を提案する。
論文 参考訳(メタデータ) (2021-11-26T23:41:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。