論文の概要: Discrete-time diffusion-like models for speech synthesis
- arxiv url: http://arxiv.org/abs/2509.18470v1
- Date: Mon, 22 Sep 2025 23:19:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.611056
- Title: Discrete-time diffusion-like models for speech synthesis
- Title(参考訳): 離散時間拡散様モデルによる音声合成
- Authors: Xiaozhou Tan, Minghui Zhao, Mattias Cross, Anton Ragni,
- Abstract要約: 本稿では,拡散様離散時間過程について検討し,新しい変種を提案する。
実験により、離散時間プロセスは、広く普及している連続的なプロセスと同等の主観的および客観的な音声品質を提供することが示された。
- 参考スコア(独自算出の注目度): 9.75332568532387
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have attracted a lot of attention in recent years. These models view speech generation as a continuous-time process. For efficient training, this process is typically restricted to additive Gaussian noising, which is limiting. For inference, the time is typically discretized, leading to the mismatch between continuous training and discrete sampling conditions. Recently proposed discrete-time processes, on the other hand, usually do not have these limitations, may require substantially fewer inference steps, and are fully consistent between training/inference conditions. This paper explores some diffusion-like discrete-time processes and proposes some new variants. These include processes applying additive Gaussian noise, multiplicative Gaussian noise, blurring noise and a mixture of blurring and Gaussian noises. The experimental results suggest that discrete-time processes offer comparable subjective and objective speech quality to their widely popular continuous counterpart, with more efficient and consistent training and inference schemas.
- Abstract(参考訳): 近年,拡散モデルが注目されている。
これらのモデルは、音声生成を連続的なプロセスと見なしている。
効率的な訓練のために、この過程は典型的には加法ガウスノイズ化(英語版)に制限される。
推論の場合、時間は通常離散化され、連続的なトレーニングと離散的なサンプリング条件のミスマッチにつながる。
一方、最近提案された離散時間プロセスは、通常これらの制限を持っておらず、かなり少ない推論ステップを必要とし、トレーニング/推論条件間で完全に整合している。
本稿では,拡散様離散時間過程について検討し,新しい変種を提案する。
これらは加法的なガウス雑音、乗法的なガウス雑音、ぼやけたノイズ、およびぼやけたガウス雑音とガウス雑音の混合を含む。
実験結果から、離散時間プロセスは、より効率的で一貫したトレーニングと推論スキーマを備えた、広範に普及している、主観的および客観的な音声品質を提供することが示された。
関連論文リスト
- Simple and Critical Iterative Denoising: A Recasting of Discrete Diffusion in Graph Generation [0.0]
中間ノイズ状態間の依存関係は、逆ノイズ化プロセス中にエラーの蓄積と伝播を引き起こす。
本稿では, 離散拡散を単純化し, 問題を回避し, 簡易反復分解という新しい枠組みを提案する。
実験により,提案手法はグラフ生成タスクにおいて既存の離散拡散ベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2025-03-27T15:08:58Z) - Blue noise for diffusion models [50.99852321110366]
本稿では,画像内および画像間の相関雑音を考慮した拡散モデルを提案する。
我々のフレームワークは、勾配流を改善するために、1つのミニバッチ内に画像間の相関を導入することができる。
本手法を用いて,各種データセットの質的,定量的な評価を行う。
論文 参考訳(メタデータ) (2024-02-07T14:59:25Z) - Unified Discrete Diffusion for Categorical Data [37.56355078250024]
離散拡散のためのより正確で容易に最適なトレーニングを可能にする変分下界の数学的単純化について述べる。
本稿では, 精密かつ高速なサンプリングが可能な後方復調法と, 離散時間および連続時間離散拡散のエレガントな統一法を導出する。
論文 参考訳(メタデータ) (2024-02-06T04:42:36Z) - Fast Sampling via Discrete Non-Markov Diffusion Models with Predetermined Transition Time [49.598085130313514]
離散非マルコフ拡散モデル(DNDM)を提案する。
これにより、トレーニング不要なサンプリングアルゴリズムにより、関数評価の数を大幅に削減できる。
有限ステップサンプリングから無限ステップサンプリングへの移行について検討し、離散プロセスと連続プロセスのギャップを埋めるための新たな洞察を提供する。
論文 参考訳(メタデータ) (2023-12-14T18:14:11Z) - One More Step: A Versatile Plug-and-Play Module for Rectifying Diffusion
Schedule Flaws and Enhancing Low-Frequency Controls [77.42510898755037]
One More Step (OMS) は、推論中に単純だが効果的なステップを付加したコンパクトネットワークである。
OMSは画像の忠実度を高め、トレーニングと推論の二分法を調和させ、元のモデルパラメータを保存する。
トレーニングが完了すると、同じ潜在ドメインを持つ様々な事前訓練された拡散モデルが同じOMSモジュールを共有することができる。
論文 参考訳(メタデータ) (2023-11-27T12:02:42Z) - Blackout Diffusion: Generative Diffusion Models in Discrete-State Spaces [0.0]
前方拡散過程における任意の離散状態マルコフ過程の理論的定式化を開発する。
例えばBlackout Diffusion'は、ノイズからではなく、空のイメージからサンプルを生成することを学習する。
論文 参考訳(メタデータ) (2023-05-18T16:24:12Z) - Applying Regularized Schr\"odinger-Bridge-Based Stochastic Process in
Generative Modeling [0.0]
本研究は,時間ステップ数とトレーニング時間を削減し,双方向プロセスと時間ステップ数との整合性を確保するための正規化条件を提案する。
この正規化を様々なタスクに適用することにより、より高速なサンプリング速度のプロセスに基づく生成モデリングの可能性を確認することができる。
論文 参考訳(メタデータ) (2022-08-15T11:52:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。