Fugu-MT 論文翻訳(概要): AudioTurbo: Fast Text-to-Audio Generation with Rectified Diffusion

論文の概要: AudioTurbo: Fast Text-to-Audio Generation with Rectified Diffusion

arxiv url: http://arxiv.org/abs/2505.22106v1
Date: Wed, 28 May 2025 08:33:58 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-29 17:35:50.499348
Title: AudioTurbo: Fast Text-to-Audio Generation with Rectified Diffusion
Title（参考訳）: AudioTurbo: 正規拡散による高速テキスト・音声生成
Authors: Junqi Zhao, Jinzheng Zhao, Haohe Liu, Yun Chen, Lu Han, Xubo Liu, Mark Plumbley, Wenwu Wang,
Abstract要約: 整流流は直線常微分方程式経路を学習することにより推論速度を向上させる。このアプローチでは、フローマッチングモデルをスクラッチからトレーニングする必要があります。本稿では,事前学習したTTAモデルにより生成された定性雑音サンプルペアから一階ODEパスを学習するAudioTurboを提案する。
参考スコア（独自算出の注目度）: 23.250409921931492
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Diffusion models have significantly improved the quality and diversity of audio generation but are hindered by slow inference speed. Rectified flow enhances inference speed by learning straight-line ordinary differential equation (ODE) paths. However, this approach requires training a flow-matching model from scratch and tends to perform suboptimally, or even poorly, at low step counts. To address the limitations of rectified flow while leveraging the advantages of advanced pre-trained diffusion models, this study integrates pre-trained models with the rectified diffusion method to improve the efficiency of text-to-audio (TTA) generation. Specifically, we propose AudioTurbo, which learns first-order ODE paths from deterministic noise sample pairs generated by a pre-trained TTA model. Experiments on the AudioCaps dataset demonstrate that our model, with only 10 sampling steps, outperforms prior models and reduces inference to 3 steps compared to a flow-matching-based acceleration model.
Abstract（参考訳）: 拡散モデルは、オーディオ生成の品質と多様性を大幅に改善したが、推論速度の遅さによって妨げられている。整流流は直線常微分方程式(ODE)経路を学習することで推論速度を向上させる。しかし、このアプローチではフローマッチングモデルをスクラッチからトレーニングする必要があります。本研究は, 事前学習型拡散モデルの利点を活用しつつ, 整流の限界に対処するため, 整流拡散法と事前学習型拡散モデルを統合し, テキスト・トゥ・オーディオ(TTA)生成の効率を向上する。具体的には、事前学習されたTTAモデルにより生成された定性雑音サンプルペアから一階ODEパスを学習するAudioTurboを提案する。 AudioCapsデータセットの実験では、我々のモデルはサンプリングステップが10ステップしかなく、事前モデルよりも優れており、フローマッチングベースのアクセラレーションモデルと比較して推論が3ステップに短縮されている。

関連論文リスト

TADA: Improved Diffusion Sampling with Training-free Augmented Dynamics [42.99251753481681]
我々は,ImageNet512 上で比較 FID を比較対象とするアートソルバの現在の状態よりも最大 186% 以上高速な新しいサンプリング手法を提案する。提案手法の鍵は,高次元初期雑音を用いて,より詳細なサンプルを生成することである。
論文参考訳（メタデータ） (2025-06-26T20:30:27Z)
Noise Conditional Variational Score Distillation [60.38982038894823]
騒音条件変化スコア蒸留(NCVSD)は, 予混合拡散モデルから生成消音剤を蒸留する新しい方法である。この知見を変分スコア蒸留フレームワークに組み込むことで、生成的デノイザのスケーラブルな学習を可能にする。
論文参考訳（メタデータ） (2025-06-11T06:01:39Z)
AB-Cache: Training-Free Acceleration of Diffusion Models via Adams-Bashforth Cached Feature Reuse [19.13826316844611]
拡散モデルは生成的タスクにおいて顕著に成功したが、反復的認知過程は推論を遅くする。本稿では,第2次Adams-Bashforth法を用いて認知過程を解析することにより理論的に理解する。キャッシュされた結果を直接再利用する代わりに,拡散モデルに対するキャッシングに基づく新しい高速化手法を提案する。
論文参考訳（メタデータ） (2025-04-13T08:29:58Z)
One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文参考訳（メタデータ） (2025-03-09T09:39:57Z)
Optimizing for the Shortest Path in Denoising Diffusion Model [8.884907787678731]
最短経路拡散モデル(ShortDF)は、復調誤差の最小化を目的とした最短経路問題である。複数の標準ベンチマークの実験により、ShortDFは拡散時間(またはステップ)を大幅に短縮することが示された。この研究は、インタラクティブな拡散ベースのアプリケーションへの道を開き、高速なデータ生成の基礎を確立します。
論文参考訳（メタデータ） (2025-03-05T08:47:36Z)
Sequential Flow Straightening for Generative Modeling [14.521246785215808]
本稿では,大域的トランケーション誤差を低減するために,確率フローを直線化する学習手法であるSeqRFを提案する。 CIFAR-10, CelebA-$64×64$, LSUN-Churchデータセットの超越結果を達成する。
論文参考訳（メタデータ） (2024-02-09T15:09:38Z)
Guided Flows for Generative Modeling and Decision Making [55.42634941614435]
その結果,ガイドフローは条件付き画像生成やゼロショット音声合成におけるサンプル品質を著しく向上させることがわかった。特に、我々は、拡散モデルと比較して、オフライン強化学習設定axスピードアップにおいて、まず、計画生成にフローモデルを適用する。
論文参考訳（メタデータ） (2023-11-22T15:07:59Z)
ConsistencyTTA: Accelerating Diffusion-Based Text-to-Audio Generation with Consistency Distillation [21.335983674309475]
拡散モデルは、世代毎の根底にあるデノナイジングネットワークへのクエリ数が過度に多いため、遅い推論に悩まされる。本稿では,1つの非自己回帰型ネットワーククエリのみを必要とするフレームワークであるConsistencyTTAを紹介する。そこで我々は「CFG対応潜時整合モデル」を提案し, 整合性生成を潜時空間に適応させる。
論文参考訳（メタデータ） (2023-09-19T16:36:33Z)
Boosting Fast and High-Quality Speech Synthesis with Linear Diffusion [85.54515118077825]
本稿では, 常微分方程式に基づく線形拡散モデル(LinDiff)を提案する。計算複雑性を低減するため、LinDiffでは、入力信号を小さなパッチに分割するパッチベースの処理アプローチを採用している。我々のモデルは、より高速な合成速度で自己回帰モデルに匹敵する品質の音声を合成することができる。
論文参考訳（メタデータ） (2023-06-09T07:02:43Z)
Fast Sampling of Diffusion Models via Operator Learning [74.37531458470086]
我々は,拡散モデルのサンプリング過程を高速化するために,確率フロー微分方程式の効率的な解法であるニューラル演算子を用いる。シーケンシャルな性質を持つ他の高速サンプリング手法と比較して、並列復号法を最初に提案する。本稿では,CIFAR-10では3.78、ImageNet-64では7.83の最先端FIDを1モデル評価環境で達成することを示す。
論文参考訳（メタデータ） (2022-11-24T07:30:27Z)
A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文参考訳（メタデータ） (2021-07-25T19:23:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。