論文の概要: MeanAudio: Fast and Faithful Text-to-Audio Generation with Mean Flows
- arxiv url: http://arxiv.org/abs/2508.06098v2
- Date: Wed, 22 Oct 2025 09:22:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:09.035017
- Title: MeanAudio: Fast and Faithful Text-to-Audio Generation with Mean Flows
- Title(参考訳): MeanAudio: 平均フローによる高速で忠実なテキスト・ツー・オーディオ生成
- Authors: Xiquan Li, Junxi Liu, Yuzhe Liang, Zhikang Niu, Wenxi Chen, Xie Chen,
- Abstract要約: MeanAudioは、1つの機能評価(1-NFE)だけで現実的な音をレンダリングできる高速で忠実なテキスト・オーディオ・ジェネレータである
我々は,MeanAudioが単一ステップ音声生成における最先端性能を実現することを実証した。
- 参考スコア(独自算出の注目度): 13.130255838403002
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have witnessed remarkable progress in Text-to-Audio Generation (TTA), providing sound creators with powerful tools to transform inspirations into vivid audio. Yet despite these advances, current TTA systems often suffer from slow inference speed, which greatly hinders the efficiency and smoothness of audio creation. In this paper, we present MeanAudio, a fast and faithful text-to-audio generator capable of rendering realistic sound with only one function evaluation (1-NFE). MeanAudio leverages: (i) the MeanFlow objective with guided velocity target that significantly accelerates inference speed, (ii) an enhanced Flux-style transformer with dual text encoders for better semantic alignment and synthesis quality, and (iii) an efficient instantaneous-to-mean curriculum that speeds up convergence and enables training on consumer-grade GPUs. Through a comprehensive evaluation study, we demonstrate that MeanAudio achieves state-of-the-art performance in single-step audio generation. Specifically, it achieves a real-time factor (RTF) of 0.013 on a single NVIDIA RTX 3090, yielding a 100x speedup over SOTA diffusion-based TTA systems. Moreover, MeanAudio also shows strong performance in multi-step generation, enabling smooth transitions across successive synthesis steps.
- Abstract(参考訳): 近年、テキスト・トゥ・オーディオ・ジェネレーション(TTA)が顕著に進歩し、サウンド・クリエーターにインスピレーションを鮮明なオーディオに変換する強力なツールを提供している。
しかし、これらの進歩にもかかわらず、現在のTTAシステムは推論速度が遅いため、オーディオ生成の効率と滑らかさを著しく損なうことも多い。
本稿では,1つの機能評価(1-NFE)のみで現実的な音をレンダリングできる,高速で忠実なテキスト・オーディオ・ジェネレータであるMeanAudioについて述べる。
MeanAudioは次のように活用する。
(i)推論速度を著しく加速する誘導速度目標を持つMeanFlow目標。
(ii) セマンティックアライメントと合成品質を向上するデュアルテキストエンコーダを備えた拡張Flux型トランス
(iii)コンバージェンスを高速化し,コンシューマグレードGPUのトレーニングを可能にする,効率的な即時学習カリキュラム。
包括的評価研究を通じて,1段階の音声生成において,MeanAudioが最先端の性能を達成することを示す。
具体的には、単一のNVIDIA RTX 3090上で0.013のリアルタイム係数(RTF)を達成し、SOTA拡散ベースのTTAシステムよりも100倍のスピードアップを実現している。
さらに、MeanAudioはマルチステップ生成において高い性能を示し、連続した合成ステップ間のスムーズな遷移を可能にする。
関連論文リスト
- Voxtral Realtime [134.66962524291424]
Voxtral Realtimeはストリーミング自動音声認識モデルである。
オフラインの書き込み品質は、秒以下のレイテンシで一致します。
私たちはApache 2.0ライセンスの下でモデルウェイトをリリースしています。
論文 参考訳(メタデータ) (2026-02-11T19:17:10Z) - Representation-Regularized Convolutional Audio Transformer for Audio Understanding [53.092757178419355]
スクラッチからのブートストラップ表現は計算に高価で、しばしば収束するために広範囲のトレーニングを必要とします。
本稿では,これらの課題に対処するための統合フレームワークであるConvolutional Audio Transformer (CAT)を提案する。
論文 参考訳(メタデータ) (2026-01-29T12:16:19Z) - FCPE: A Fast Context-based Pitch Estimation Model [10.788664167503676]
本稿では,低計算コストと頑健な耐雑音性を維持しつつ,メルスペクトルの特徴を捉える高速な文脈ベースピッチ推定モデルを提案する。
実験の結果,MIR-1Kデータセット上で96.79%のRAW Pitch Accuracy(RPA)が達成された。
論文 参考訳(メタデータ) (2025-09-18T16:50:09Z) - MeanFlow-Accelerated Multimodal Video-to-Audio Synthesis via One-Step Generation [12.665130073406651]
サイレントビデオから音声を合成する上で重要な課題は、合成品質と推論効率のトレードオフである。
平均速度を用いて流れ場を特徴付ける平均流加速モデルを提案する。
我々は,MeanFlowをネットワークに組み込むことで,知覚品質を損なうことなく推論速度を大幅に向上することを示した。
論文 参考訳(メタデータ) (2025-09-08T07:15:21Z) - READ: Real-time and Efficient Asynchronous Diffusion for Audio-driven Talking Head Generation [55.58089937219475]
本稿では,最初のリアルタイム拡散変換器を用いた音声ヘッド生成フレームワークREADを提案する。
提案手法はまず,VAEを用いて高度に圧縮されたビデオ潜時空間を学習し,音声生成におけるトークン数を大幅に削減する。
また,READは,実行時間を大幅に短縮した競合する音声ヘッドビデオを生成することにより,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-08-05T13:57:03Z) - StreamMel: Real-Time Zero-shot Text-to-Speech via Interleaved Continuous Autoregressive Modeling [50.537794606598254]
StreamMelは、継続的メル-スペクトログラムをモデル化する、先駆的なシングルステージストリーミングTSフレームワークである。
高い話者類似性と自然性を保ちながら、低レイテンシで自己回帰的な合成を可能にする。
オフラインシステムに匹敵するパフォーマンスを実現し、効率的なリアルタイム生成もサポートしている。
論文 参考訳(メタデータ) (2025-06-14T16:53:39Z) - AudioTurbo: Fast Text-to-Audio Generation with Rectified Diffusion [23.250409921931492]
整流流は直線常微分方程式経路を学習することにより推論速度を向上させる。
このアプローチでは、フローマッチングモデルをスクラッチからトレーニングする必要があります。
本稿では,事前学習したTTAモデルにより生成された定性雑音サンプルペアから一階ODEパスを学習するAudioTurboを提案する。
論文 参考訳(メタデータ) (2025-05-28T08:33:58Z) - Fast Text-to-Audio Generation with Adversarial Post-Training [39.000388217500785]
テキストとオーディオのシステムは推論時に遅いため、多くのクリエイティブなアプリケーションではレイテンシが実用的ではない。
本稿では, 蒸留法をベースとしない拡散流モデルに対する最初の逆数加速アルゴリズムである, ARC(Adversarial Relativistic-Contrastive Re-trainstive Re-training)について述べる。
論文 参考訳(メタデータ) (2025-05-13T02:25:47Z) - FlowTS: Time Series Generation via Rectified Flow [67.41208519939626]
FlowTSは、確率空間における直線輸送を伴う整流フローを利用するODEベースのモデルである。
非条件設定では、FlowTSは最先端のパフォーマンスを達成し、コンテキストFIDスコアはStockとETThデータセットで0.019と0.011である。
条件設定では、太陽予測において優れた性能を達成している。
論文 参考訳(メタデータ) (2024-11-12T03:03:23Z) - FlowTurbo: Towards Real-time Flow-Based Image Generation with Velocity Refiner [70.90505084288057]
フローベースモデルはサンプリングプロセス中により直線的なサンプリング軌道を生成する傾向にある。
擬似修正器やサンプル認識コンパイルなどいくつかの手法を導入し,推論時間をさらに短縮する。
FlowTurboはImageNet上で100(ms/img)で2.12FID、38(ms/img)で3.93FIDに達する
論文 参考訳(メタデータ) (2024-09-26T17:59:51Z) - Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。
本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。
実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-06-01T06:40:22Z) - Guided Flows for Generative Modeling and Decision Making [55.42634941614435]
その結果,ガイドフローは条件付き画像生成やゼロショット音声合成におけるサンプル品質を著しく向上させることがわかった。
特に、我々は、拡散モデルと比較して、オフライン強化学習設定axスピードアップにおいて、まず、計画生成にフローモデルを適用する。
論文 参考訳(メタデータ) (2023-11-22T15:07:59Z) - VoiceFlow: Efficient Text-to-Speech with Rectified Flow Matching [14.7974342537458]
VoiceFlowは,修正フローマッチングアルゴリズムを用いて,限られたサンプリングステップ数で高い合成品質を実現する音響モデルである。
単話者コーパスと多話者コーパスの主観的および客観的評価の結果,VoiceFlowの合成品質は拡散コーパスに比べて優れていた。
論文 参考訳(メタデータ) (2023-09-10T13:47:39Z) - FastDiff: A Fast Conditional Diffusion Model for High-Quality Speech
Synthesis [90.3069686272524]
本稿では,高品質音声合成のための高速条件拡散モデルであるFastDiffを提案する。
FastDiffは、長期の依存関係を効率的にモデル化するために、さまざまな受容的フィールドパターンの時間認識可能な位置可変の畳み込みを使用する。
我々は、FastDiffに基づいて、高忠実度音声波形を生成するエンドツーエンドのテキスト音声合成器FastDiff-TTSを設計する。
論文 参考訳(メタデータ) (2022-04-21T07:49:09Z) - Neural Waveshaping Synthesis [0.0]
ニューラルオーディオ合成に対する,新しい,軽量で完全な因果的アプローチを提案する。
ニューラルウェーブシェイピングユニット(NEWT)は、波形領域で直接動作する。
入力信号と出力信号の単純なアフィン変換によって複雑な鼓膜進化を生成する。
論文 参考訳(メタデータ) (2021-07-11T13:50:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。