論文の概要: MeanAudio: Fast and Faithful Text-to-Audio Generation with Mean Flows
- arxiv url: http://arxiv.org/abs/2508.06098v2
- Date: Wed, 22 Oct 2025 09:22:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:09.035017
- Title: MeanAudio: Fast and Faithful Text-to-Audio Generation with Mean Flows
- Title(参考訳): MeanAudio: 平均フローによる高速で忠実なテキスト・ツー・オーディオ生成
- Authors: Xiquan Li, Junxi Liu, Yuzhe Liang, Zhikang Niu, Wenxi Chen, Xie Chen,
- Abstract要約: MeanAudioは、1つの機能評価(1-NFE)だけで現実的な音をレンダリングできる高速で忠実なテキスト・オーディオ・ジェネレータである
我々は,MeanAudioが単一ステップ音声生成における最先端性能を実現することを実証した。
- 参考スコア(独自算出の注目度): 13.130255838403002
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have witnessed remarkable progress in Text-to-Audio Generation (TTA), providing sound creators with powerful tools to transform inspirations into vivid audio. Yet despite these advances, current TTA systems often suffer from slow inference speed, which greatly hinders the efficiency and smoothness of audio creation. In this paper, we present MeanAudio, a fast and faithful text-to-audio generator capable of rendering realistic sound with only one function evaluation (1-NFE). MeanAudio leverages: (i) the MeanFlow objective with guided velocity target that significantly accelerates inference speed, (ii) an enhanced Flux-style transformer with dual text encoders for better semantic alignment and synthesis quality, and (iii) an efficient instantaneous-to-mean curriculum that speeds up convergence and enables training on consumer-grade GPUs. Through a comprehensive evaluation study, we demonstrate that MeanAudio achieves state-of-the-art performance in single-step audio generation. Specifically, it achieves a real-time factor (RTF) of 0.013 on a single NVIDIA RTX 3090, yielding a 100x speedup over SOTA diffusion-based TTA systems. Moreover, MeanAudio also shows strong performance in multi-step generation, enabling smooth transitions across successive synthesis steps.
- Abstract(参考訳): 近年、テキスト・トゥ・オーディオ・ジェネレーション(TTA)が顕著に進歩し、サウンド・クリエーターにインスピレーションを鮮明なオーディオに変換する強力なツールを提供している。
しかし、これらの進歩にもかかわらず、現在のTTAシステムは推論速度が遅いため、オーディオ生成の効率と滑らかさを著しく損なうことも多い。
本稿では,1つの機能評価(1-NFE)のみで現実的な音をレンダリングできる,高速で忠実なテキスト・オーディオ・ジェネレータであるMeanAudioについて述べる。
MeanAudioは次のように活用する。
(i)推論速度を著しく加速する誘導速度目標を持つMeanFlow目標。
(ii) セマンティックアライメントと合成品質を向上するデュアルテキストエンコーダを備えた拡張Flux型トランス
(iii)コンバージェンスを高速化し,コンシューマグレードGPUのトレーニングを可能にする,効率的な即時学習カリキュラム。
包括的評価研究を通じて,1段階の音声生成において,MeanAudioが最先端の性能を達成することを示す。
具体的には、単一のNVIDIA RTX 3090上で0.013のリアルタイム係数(RTF)を達成し、SOTA拡散ベースのTTAシステムよりも100倍のスピードアップを実現している。
さらに、MeanAudioはマルチステップ生成において高い性能を示し、連続した合成ステップ間のスムーズな遷移を可能にする。
関連論文リスト
- AudioTurbo: Fast Text-to-Audio Generation with Rectified Diffusion [23.250409921931492]
整流流は直線常微分方程式経路を学習することにより推論速度を向上させる。
このアプローチでは、フローマッチングモデルをスクラッチからトレーニングする必要があります。
本稿では,事前学習したTTAモデルにより生成された定性雑音サンプルペアから一階ODEパスを学習するAudioTurboを提案する。
論文 参考訳(メタデータ) (2025-05-28T08:33:58Z) - FlowTS: Time Series Generation via Rectified Flow [67.41208519939626]
FlowTSは、確率空間における直線輸送を伴う整流フローを利用するODEベースのモデルである。
非条件設定では、FlowTSは最先端のパフォーマンスを達成し、コンテキストFIDスコアはStockとETThデータセットで0.019と0.011である。
条件設定では、太陽予測において優れた性能を達成している。
論文 参考訳(メタデータ) (2024-11-12T03:03:23Z) - FlowTurbo: Towards Real-time Flow-Based Image Generation with Velocity Refiner [70.90505084288057]
フローベースモデルはサンプリングプロセス中により直線的なサンプリング軌道を生成する傾向にある。
擬似修正器やサンプル認識コンパイルなどいくつかの手法を導入し,推論時間をさらに短縮する。
FlowTurboはImageNet上で100(ms/img)で2.12FID、38(ms/img)で3.93FIDに達する
論文 参考訳(メタデータ) (2024-09-26T17:59:51Z) - Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。
本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。
実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-06-01T06:40:22Z) - Guided Flows for Generative Modeling and Decision Making [55.42634941614435]
その結果,ガイドフローは条件付き画像生成やゼロショット音声合成におけるサンプル品質を著しく向上させることがわかった。
特に、我々は、拡散モデルと比較して、オフライン強化学習設定axスピードアップにおいて、まず、計画生成にフローモデルを適用する。
論文 参考訳(メタデータ) (2023-11-22T15:07:59Z) - VoiceFlow: Efficient Text-to-Speech with Rectified Flow Matching [14.7974342537458]
VoiceFlowは,修正フローマッチングアルゴリズムを用いて,限られたサンプリングステップ数で高い合成品質を実現する音響モデルである。
単話者コーパスと多話者コーパスの主観的および客観的評価の結果,VoiceFlowの合成品質は拡散コーパスに比べて優れていた。
論文 参考訳(メタデータ) (2023-09-10T13:47:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。