論文の概要: Energy-Based Models For Speech Synthesis
- arxiv url: http://arxiv.org/abs/2310.12765v1
- Date: Thu, 19 Oct 2023 14:10:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-20 15:06:40.430382
- Title: Energy-Based Models For Speech Synthesis
- Title(参考訳): 音声合成のためのエネルギーモデル
- Authors: Wanli Sun, Zehai Tu, Anton Ragni
- Abstract要約: 本稿では、エネルギーベースモデル(EBMs)と呼ばれる別のメンバーで利用可能な非ARモデルの範囲を広げる。
高性能なARモデルの使用を含む、効果的な負のサンプルを生成するための多くの戦略を提案する。
- 参考スコア(独自算出の注目度): 6.769420049627968
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently there has been a lot of interest in non-autoregressive (non-AR)
models for speech synthesis, such as FastSpeech 2 and diffusion models. Unlike
AR models, these models do not have autoregressive dependencies among outputs
which makes inference efficient. This paper expands the range of available
non-AR models with another member called energy-based models (EBMs). The paper
describes how noise contrastive estimation, which relies on the comparison
between positive and negative samples, can be used to train EBMs. It proposes a
number of strategies for generating effective negative samples, including using
high-performing AR models. It also describes how sampling from EBMs can be
performed using Langevin Markov Chain Monte-Carlo (MCMC). The use of Langevin
MCMC enables to draw connections between EBMs and currently popular diffusion
models. Experiments on LJSpeech dataset show that the proposed approach offers
improvements over Tacotron 2.
- Abstract(参考訳): 近年,FastSpeech 2や拡散モデルなど,音声合成のための非自己回帰(非AR)モデルへの関心が高まっている。
ARモデルとは異なり、これらのモデルは推論を効率的にするアウトプット間に自己回帰依存を持たない。
本稿では,エネルギーベースモデル (EBMs) と呼ばれる,利用可能な非ARモデルの範囲を広げる。
本稿では, 正試料と負試料の比較に依拠するノイズコントラスト推定が, EBMの訓練にどのように用いられるかを説明する。
高性能なARモデルの使用を含む、効果的な負のサンプルを生成するための多くの戦略を提案する。
また、Langevin Markov Chain Monte-Carlo (MCMC) を用いて、EMMからのサンプリングを行う方法も説明している。
Langevin MCMCは、EMMと現在普及している拡散モデルの間の接続を描画することができる。
LJSpeechデータセットの実験は、提案されたアプローチがTacotron 2.0よりも改善されていることを示している。
関連論文リスト
- LLaMA-MoE v2: Exploring Sparsity of LLaMA from Perspective of Mixture-of-Experts with Post-Training [18.49753274534983]
Mixture-of-Experts(MoE)モデルは、アクティベートパラメータの数を一定に保ちながら、モデルサイズをスケールする上で人気が高まっている。
変換器ブロック内のMoEモジュール(すなわちMoE)とMoEモジュールの両方に対してMoEを構築することにより,高密度LLaMAモデルの疎さを徹底的に検討する。
スパシティの増大による性能劣化に対処するために,2段階のポストトレーニング戦略を設計する。
論文 参考訳(メタデータ) (2024-11-24T04:26:04Z) - Energy-Based Diffusion Language Models for Text Generation [126.23425882687195]
エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。
我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。
論文 参考訳(メタデータ) (2024-10-28T17:25:56Z) - Scaling Diffusion Language Models via Adaptation from Autoregressive Models [105.70889434492143]
拡散言語モデル(DLM)は、テキスト生成モデルのための将来性のある新しいパラダイムとして登場した。
170Mから7BまでのARモデルをDiffuGPTとDiffuLLaMAの拡散モデルに変換し、200B未満のトークンでトレーニングできることを示す。
実験の結果,これらのモデルは初期のDLMよりも優れており,ARと競合していることがわかった。
論文 参考訳(メタデータ) (2024-10-23T14:04:22Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Learning Energy-Based Models by Cooperative Diffusion Recovery Likelihood [64.95663299945171]
高次元データに基づくエネルギーベースモデル(EBM)の訓練は、困難かつ時間を要する可能性がある。
EBMと、GANや拡散モデルのような他の生成フレームワークとの間には、サンプル品質に顕著なギャップがある。
本研究では,協調拡散回復可能性 (CDRL) を提案する。
論文 参考訳(メタデータ) (2023-09-10T22:05:24Z) - Adversarial Training of Denoising Diffusion Model Using Dual
Discriminators for High-Fidelity Multi-Speaker TTS [0.0]
拡散モデルは確率論的アプローチにより高品質なデータを生成することができる。
これは、多くの時間ステップを必要とするため、生成速度が遅くなるという欠点に悩まされる。
本稿では、逆過程の分布を学習する拡散判別器と、生成されたデータの分布を学習するスペクトログラム判別器の2つの識別器を用いた音声合成モデルを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:22:04Z) - MCMC-Correction of Score-Based Diffusion Models for Model Composition [2.682859657520006]
拡散モデルは、スコアまたはエネルギー関数のどちらかの観点からパラメータ化することができる。
本稿では,エネルギーモデルにインスパイアされたスコアパラメータ化と受理確率の計算を提案する。
論文 参考訳(メタデータ) (2023-07-26T07:50:41Z) - An Efficient Membership Inference Attack for the Diffusion Model by
Proximal Initialization [58.88327181933151]
本稿では,効率的なクエリベースのメンバシップ推論攻撃(MIA)を提案する。
実験結果から,提案手法は離散時間と連続時間の両方の拡散モデル上で,2つのクエリで競合性能を達成できることが示唆された。
我々の知る限り、本研究はテキスト音声タスクにおけるMIAへの拡散モデルのロバスト性について初めて研究するものである。
論文 参考訳(メタデータ) (2023-05-26T16:38:48Z) - Your Autoregressive Generative Model Can be Better If You Treat It as an
Energy-Based One [83.5162421521224]
本稿では,自己回帰生成モデルの学習のための独自のE-ARM法を提案する。
E-ARMは、よく設計されたエネルギーベースの学習目標を活用する。
我々は、E-ARMを効率的に訓練でき、露光バイアス問題を緩和できることを示した。
論文 参考訳(メタデータ) (2022-06-26T10:58:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。