論文の概要: Accelerating Diffusion-Based Text-to-Audio Generation with Consistency
Distillation
- arxiv url: http://arxiv.org/abs/2309.10740v1
- Date: Tue, 19 Sep 2023 16:36:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 13:34:28.080901
- Title: Accelerating Diffusion-Based Text-to-Audio Generation with Consistency
Distillation
- Title(参考訳): 連続蒸留による拡散型テキスト・音声生成の高速化
- Authors: Yatong Bai, Trung Dang, Dung Tran, Kazuhito Koishida, Somayeh Sojoudi
- Abstract要約: この作業は、最近提案された一貫性蒸留フレームワークを変更して、単一のニューラルネットワーククエリのみを必要とするTTAモデルをトレーニングする。
我々は蒸留訓練中に生成された音声の可用性を活用し、CLAPスコアなどの音声空間における新しい損失関数を持つ整合性TTAモデルを微調整する。
また,AudioCapsデータセットの目的および主観評価結果から,一貫性モデルは拡散モデルの高次品質と多様性を保ちつつ,クエリ数を400倍に削減することを示した。
- 参考スコア(独自算出の注目度): 22.890223762014923
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Diffusion models power a vast majority of text-to-audio (TTA) generation
methods. Unfortunately, these models suffer from slow inference speed due to
iterative queries to the underlying denoising network, thus unsuitable for
scenarios with inference time or computational constraints. This work modifies
the recently proposed consistency distillation framework to train TTA models
that require only a single neural network query. In addition to incorporating
classifier-free guidance into the distillation process, we leverage the
availability of generated audio during distillation training to fine-tune the
consistency TTA model with novel loss functions in the audio space, such as the
CLAP score. Our objective and subjective evaluation results on the AudioCaps
dataset show that consistency models retain diffusion models' high generation
quality and diversity while reducing the number of queries by a factor of 400.
- Abstract(参考訳): 拡散モデルは、TTA(text-to-audio)生成法の大部分をパワーアップする。
残念ながら、これらのモデルは根底にあるデノナイジングネットワークへの反復的なクエリによって推論速度が遅いため、推論時間や計算制約のあるシナリオには適さない。
この作業は、最近提案された一貫性蒸留フレームワークを変更して、単一のニューラルネットワーククエリのみを必要とするTTAモデルをトレーニングする。
蒸留工程に分類器フリーガイダンスを組み込むことに加えて、蒸留訓練中に生成された音声の可用性を活用し、CLAPスコアなどの音声空間における新しい損失関数を持つ整合性TTAモデルを微調整する。
また,AudioCapsデータセットの目的および主観評価結果から,一貫性モデルは拡散モデルの高次品質と多様性を保ちつつ,クエリ数を400倍に削減することを示した。
関連論文リスト
- Text Diffusion with Reinforced Conditioning [92.17397504834825]
本稿では,テキスト拡散モデルを完全に解析し,トレーニング中の自己条件の劣化と,トレーニングとサンプリングのミスアライメントの2つの重要な限界を明らかにする。
そこで本研究では, TRECと呼ばれる新しいテキスト拡散モデルを提案する。
論文 参考訳(メタデータ) (2024-02-19T09:24:02Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - Adversarial Training of Denoising Diffusion Model Using Dual
Discriminators for High-Fidelity Multi-Speaker TTS [0.0]
拡散モデルは確率論的アプローチにより高品質なデータを生成することができる。
これは、多くの時間ステップを必要とするため、生成速度が遅くなるという欠点に悩まされる。
本稿では、逆過程の分布を学習する拡散判別器と、生成されたデータの分布を学習するスペクトログラム判別器の2つの識別器を用いた音声合成モデルを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:22:04Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - CoreDiff: Contextual Error-Modulated Generalized Diffusion Model for
Low-Dose CT Denoising and Generalization [41.64072751889151]
低線量CT(LDCT)画像は光子飢餓と電子ノイズによりノイズやアーティファクトに悩まされる。
本稿では,低用量CT (LDCT) 用新しいCOntextual eRror-modulated gEneralized Diffusion Model(CoreDiff)を提案する。
論文 参考訳(メタデータ) (2023-04-04T14:13:13Z) - ResGrad: Residual Denoising Diffusion Probabilistic Models for Text to
Speech [37.29193613404699]
DDPMは高忠実度サンプルを生成する能力が強いため、TTS合成において出現している。
従来の研究では、推論ステップの数を最小化しながら、サンプル品質のコストを犠牲にすることで、推論速度の高速化が検討されてきた。
本稿では,既存のTSモデルの出力スペクトルを改良する軽量拡散モデルResGradを提案する。
論文 参考訳(メタデータ) (2022-12-30T02:31:35Z) - ProDiff: Progressive Fast Diffusion Model For High-Quality
Text-to-Speech [63.780196620966905]
本稿では,高品質テキスト合成のためのプログレッシブ高速拡散モデルであるProDiffを提案する。
ProDiffはクリーンデータを直接予測することでデノナイジングモデルをパラメータ化し、サンプリングを高速化する際の品質劣化を回避する。
評価の結果,高忠実度メル-スペクトログラムの合成にProDiffは2回しか要しないことがわかった。
ProDiffは1つのNVIDIA 2080Ti GPU上で、サンプリング速度をリアルタイムより24倍高速にする。
論文 参考訳(メタデータ) (2022-07-13T17:45:43Z) - Zero-Shot Voice Conditioning for Denoising Diffusion TTS Models [95.97506031821217]
本研究では,事前学習した拡散音声モデルを用いて,学習中に見つからない新人の声で音声を生成する手法を提案する。
この方法は、対象者からの短い(3秒)サンプルを必要とし、生成は、トレーニングステップなしで、推論時に操縦される。
論文 参考訳(メタデータ) (2022-06-05T19:45:29Z) - Reducing Model Jitter: Stable Re-training of Semantic Parsers in
Production Environments [14.829119556960066]
現代のディープラーニングシステムのリトレーニングは、同じデータとハイパーパラメータを使ってトレーニングした場合でも、モデルパフォーマンスのバリエーションにつながる可能性がある。
本研究では, アンサンブルや蒸留など, 様々なジッタ低減技術の有効性を実証する。
本研究では, セマンティック・パーシングシステムにおいて, 資源使用量の増加が緩やかに増加し, ジッタ低減の点において, 共蒸留がスイートスポットとなることを示す。
論文 参考訳(メタデータ) (2022-04-10T17:57:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。