論文の概要: Accelerating Diffusion-Based Text-to-Audio Generation with Consistency
Distillation
- arxiv url: http://arxiv.org/abs/2309.10740v1
- Date: Tue, 19 Sep 2023 16:36:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 13:34:28.080901
- Title: Accelerating Diffusion-Based Text-to-Audio Generation with Consistency
Distillation
- Title(参考訳): 連続蒸留による拡散型テキスト・音声生成の高速化
- Authors: Yatong Bai, Trung Dang, Dung Tran, Kazuhito Koishida, Somayeh Sojoudi
- Abstract要約: この作業は、最近提案された一貫性蒸留フレームワークを変更して、単一のニューラルネットワーククエリのみを必要とするTTAモデルをトレーニングする。
我々は蒸留訓練中に生成された音声の可用性を活用し、CLAPスコアなどの音声空間における新しい損失関数を持つ整合性TTAモデルを微調整する。
また,AudioCapsデータセットの目的および主観評価結果から,一貫性モデルは拡散モデルの高次品質と多様性を保ちつつ,クエリ数を400倍に削減することを示した。
- 参考スコア(独自算出の注目度): 22.890223762014923
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Diffusion models power a vast majority of text-to-audio (TTA) generation
methods. Unfortunately, these models suffer from slow inference speed due to
iterative queries to the underlying denoising network, thus unsuitable for
scenarios with inference time or computational constraints. This work modifies
the recently proposed consistency distillation framework to train TTA models
that require only a single neural network query. In addition to incorporating
classifier-free guidance into the distillation process, we leverage the
availability of generated audio during distillation training to fine-tune the
consistency TTA model with novel loss functions in the audio space, such as the
CLAP score. Our objective and subjective evaluation results on the AudioCaps
dataset show that consistency models retain diffusion models' high generation
quality and diversity while reducing the number of queries by a factor of 400.
- Abstract(参考訳): 拡散モデルは、TTA(text-to-audio)生成法の大部分をパワーアップする。
残念ながら、これらのモデルは根底にあるデノナイジングネットワークへの反復的なクエリによって推論速度が遅いため、推論時間や計算制約のあるシナリオには適さない。
この作業は、最近提案された一貫性蒸留フレームワークを変更して、単一のニューラルネットワーククエリのみを必要とするTTAモデルをトレーニングする。
蒸留工程に分類器フリーガイダンスを組み込むことに加えて、蒸留訓練中に生成された音声の可用性を活用し、CLAPスコアなどの音声空間における新しい損失関数を持つ整合性TTAモデルを微調整する。
また,AudioCapsデータセットの目的および主観評価結果から,一貫性モデルは拡散モデルの高次品質と多様性を保ちつつ,クエリ数を400倍に削減することを示した。
関連論文リスト
- DiffATR: Diffusion-based Generative Modeling for Audio-Text Retrieval [49.076590578101985]
ノイズから関節分布を生成する拡散型ATRフレームワーク(DiffATR)を提案する。
優れたパフォーマンスを持つAudioCapsとClothoデータセットの実験は、我々のアプローチの有効性を検証する。
論文 参考訳(メタデータ) (2024-09-16T06:33:26Z) - Diffusion-Driven Semantic Communication for Generative Models with Bandwidth Constraints [27.049330099874396]
本稿では,帯域制限付き生成モデルのための,高度なVAEベースの圧縮を用いた拡散駆動型セマンティック通信フレームワークを提案する。
実験の結果,ピーク信号対雑音比 (PSNR) などの画素レベルの指標と,LPIPS (Learning Perceptual Image patch similarity) のような意味的指標が大幅に改善された。
論文 参考訳(メタデータ) (2024-07-26T02:34:25Z) - Latent Diffusion Model-Enabled Real-Time Semantic Communication Considering Semantic Ambiguities and Channel Noises [18.539501941328393]
本稿では, 遅延拡散モデル対応SemComシステムを構築し, 既存システムと比較して3つの改良点を提案する。
軽量な単層遅延空間変換アダプタは、送信機でのワンショット学習を完了させる。
終端整合蒸留法を用いて, 潜時空間で訓練した拡散模型を蒸留する。
論文 参考訳(メタデータ) (2024-06-09T23:39:31Z) - CM-TTS: Enhancing Real Time Text-to-Speech Synthesis Efficiency through Weighted Samplers and Consistency Models [30.68516200579894]
一貫性モデル(CM)に基づく新しいアーキテクチャであるCM-TTSを紹介する。
CM-TTSは、対戦訓練や事前訓練されたモデル依存なしに、より少ないステップで高品質な音声合成を実現する。
包括的評価により検証した実時間メル-クログラム生成一貫性モデルを提案する。
論文 参考訳(メタデータ) (2024-03-31T05:38:08Z) - Text Diffusion with Reinforced Conditioning [92.17397504834825]
本稿では,テキスト拡散モデルを完全に解析し,トレーニング中の自己条件の劣化と,トレーニングとサンプリングのミスアライメントの2つの重要な限界を明らかにする。
そこで本研究では, TRECと呼ばれる新しいテキスト拡散モデルを提案する。
論文 参考訳(メタデータ) (2024-02-19T09:24:02Z) - Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution [67.9215891673174]
離散空間に対するスコアマッチングを自然に拡張する新たな損失として,スコアエントロピーを提案する。
標準言語モデリングタスク上で,Score Entropy Discrete Diffusionモデルをテストする。
論文 参考訳(メタデータ) (2023-10-25T17:59:12Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Adversarial Training of Denoising Diffusion Model Using Dual
Discriminators for High-Fidelity Multi-Speaker TTS [0.0]
拡散モデルは確率論的アプローチにより高品質なデータを生成することができる。
これは、多くの時間ステップを必要とするため、生成速度が遅くなるという欠点に悩まされる。
本稿では、逆過程の分布を学習する拡散判別器と、生成されたデータの分布を学習するスペクトログラム判別器の2つの識別器を用いた音声合成モデルを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:22:04Z) - Minimally-Supervised Speech Synthesis with Conditional Diffusion Model
and Language Model: A Comparative Study of Semantic Coding [57.42429912884543]
Diff-LM-Speech, Tetra-Diff-Speech, Tri-Diff-Speechを提案する。
また,変分オートエンコーダと韻律ボトルネックに基づくプロンプトエンコーダ構造を導入し,プロンプト表現能力の向上を図る。
実験の結果,提案手法はベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-28T11:20:23Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。