論文の概要: MeanFlow-Accelerated Multimodal Video-to-Audio Synthesis via One-Step Generation
- arxiv url: http://arxiv.org/abs/2509.06389v1
- Date: Mon, 08 Sep 2025 07:15:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.999604
- Title: MeanFlow-Accelerated Multimodal Video-to-Audio Synthesis via One-Step Generation
- Title(参考訳): ワンステップ生成による平均流速マルチモーダルビデオ・オーディオ合成
- Authors: Xiaoran Yang, Jianxuan Yang, Xinyue Guo, Haoyu Wang, Ningning Pan, Gongping Huang,
- Abstract要約: サイレントビデオから音声を合成する上で重要な課題は、合成品質と推論効率のトレードオフである。
平均速度を用いて流れ場を特徴付ける平均流加速モデルを提案する。
我々は,MeanFlowをネットワークに組み込むことで,知覚品質を損なうことなく推論速度を大幅に向上することを示した。
- 参考スコア(独自算出の注目度): 12.665130073406651
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A key challenge in synthesizing audios from silent videos is the inherent trade-off between synthesis quality and inference efficiency in existing methods. For instance, flow matching based models rely on modeling instantaneous velocity, inherently require an iterative sampling process, leading to slow inference speeds. To address this efficiency bottleneck, we introduce a MeanFlow-accelerated model that characterizes flow fields using average velocity, enabling one-step generation and thereby significantly accelerating multimodal video-to-audio (VTA) synthesis while preserving audio quality, semantic alignment, and temporal synchronization. Furthermore, a scalar rescaling mechanism is employed to balance conditional and unconditional predictions when classifier-free guidance (CFG) is applied, effectively mitigating CFG-induced distortions in one step generation. Since the audio synthesis network is jointly trained with multimodal conditions, we further evaluate it on text-to-audio (TTA) synthesis task. Experimental results demonstrate that incorporating MeanFlow into the network significantly improves inference speed without compromising perceptual quality on both VTA and TTA synthesis tasks.
- Abstract(参考訳): サイレントビデオから音声を合成する上で重要な課題は、既存の手法における合成品質と推論効率のトレードオフである。
例えば、フローマッチングに基づくモデルは、瞬時速度のモデリングに依存し、本質的に反復的なサンプリングプロセスを必要とし、推論速度が遅くなる。
この効率ボトルネックに対処するために,平均速度を用いて流れ場を特徴付けるMeanFlow加速モデルを導入し,音質,セマンティックアライメント,時間同期を保ちながら,ワンステップ生成を可能にし,マルチモーダルビデオ・オーディオ(VTA)合成を著しく高速化する。
さらに、分類器フリーガイダンス(CFG)を適用した場合、条件付きおよび非条件付き予測のバランスをとるためにスカラー再スケーリング機構を用い、1ステップ生成におけるCFG誘発歪みを効果的に軽減する。
音声合成ネットワークはマルチモーダル条件で協調的に訓練されているため,テキスト・トゥ・オーディオ(TTA)合成タスクでさらに評価する。
実験により,ネットワークにMeanFlowを組み込むことで,VTAおよびTTA合成タスクの知覚品質を損なうことなく,推論速度が大幅に向上することが示された。
関連論文リスト
- Shortcut Flow Matching for Speech Enhancement: Step-Invariant flows via single stage training [20.071957855504206]
拡散に基づく生成モデルは、音声強調における知覚品質の最先端性能を達成した。
音声強調のためのショートカットフローマッチング(SFMSE)を導入する。
その結果,一段階のSFMSE推論により,コンシューマGPU上でのリアルタイム係数(RTF)が0.013となることを示した。
論文 参考訳(メタデータ) (2025-09-25T20:09:05Z) - NinA: Normalizing Flows in Action. Training VLA Models with Normalizing Flows [75.70583906344815]
拡散モデルは、複雑なマルチモーダルな動作分布をモデル化できるため、アクションデコーダとして広く採用されている。
我々は、Vision-Language-Action(VLA)モデルのための拡散型デコーダの高速かつ表現性の高い代替品であるNinAを提案する。
論文 参考訳(メタデータ) (2025-08-23T00:02:15Z) - MeanAudio: Fast and Faithful Text-to-Audio Generation with Mean Flows [2.808913221639433]
MeanAudioはMeanFlowベースの新しいモデルで、高速で忠実なテキスト・オーディオ生成に適している。
トレーニング中の平均速度場を後退させ、フロー軌跡の始点から終点へ直接マッピングすることで、高速な生成を可能にする。
実験により、MeanAudioは1ステップの音声生成において最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2025-08-08T07:49:59Z) - READ: Real-time and Efficient Asynchronous Diffusion for Audio-driven Talking Head Generation [55.58089937219475]
本稿では,最初のリアルタイム拡散変換器を用いた音声ヘッド生成フレームワークREADを提案する。
提案手法はまず,VAEを用いて高度に圧縮されたビデオ潜時空間を学習し,音声生成におけるトークン数を大幅に削減する。
また,READは,実行時間を大幅に短縮した競合する音声ヘッドビデオを生成することにより,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-08-05T13:57:03Z) - RapFlow-TTS: Rapid and High-Fidelity Text-to-Speech with Improved Consistency Flow Matching [9.197146332563461]
RapFlow-TTS は高速かつ高忠実な TTS 音響モデルであり,フローマッチング(FM) トレーニングにおける速度一貫性の制約を利用する。
RapFlow-TTSは,従来のFMとスコアに基づく手法に比べて,合成ステップの5倍と10倍の削減で高忠実度音声合成を実現する。
論文 参考訳(メタデータ) (2025-06-20T04:19:29Z) - Zero-Shot Streaming Text to Speech Synthesis with Transducer and Auto-Regressive Modeling [76.23539797803681]
既存の手法は主に、自然なストリーミング音声合成を実現するために、将来のテキストに依存するルックメカニズムを使用している。
本稿では,高品質な音声フレームをフレーム単位で生成するためのストリーミングフレームワークLEを提案する。
実験結果から,LEは現行のストリーミングTTS法より優れ,文レベルのTSシステムよりも高い性能を実現していることがわかった。
論文 参考訳(メタデータ) (2025-05-26T08:25:01Z) - Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。
本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。
実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-06-01T06:40:22Z) - VoiceFlow: Efficient Text-to-Speech with Rectified Flow Matching [14.7974342537458]
VoiceFlowは,修正フローマッチングアルゴリズムを用いて,限られたサンプリングステップ数で高い合成品質を実現する音響モデルである。
単話者コーパスと多話者コーパスの主観的および客観的評価の結果,VoiceFlowの合成品質は拡散コーパスに比べて優れていた。
論文 参考訳(メタデータ) (2023-09-10T13:47:39Z) - Boosting Fast and High-Quality Speech Synthesis with Linear Diffusion [85.54515118077825]
本稿では, 常微分方程式に基づく線形拡散モデル(LinDiff)を提案する。
計算複雑性を低減するため、LinDiffでは、入力信号を小さなパッチに分割するパッチベースの処理アプローチを採用している。
我々のモデルは、より高速な合成速度で自己回帰モデルに匹敵する品質の音声を合成することができる。
論文 参考訳(メタデータ) (2023-06-09T07:02:43Z) - FastDiff: A Fast Conditional Diffusion Model for High-Quality Speech
Synthesis [90.3069686272524]
本稿では,高品質音声合成のための高速条件拡散モデルであるFastDiffを提案する。
FastDiffは、長期の依存関係を効率的にモデル化するために、さまざまな受容的フィールドパターンの時間認識可能な位置可変の畳み込みを使用する。
我々は、FastDiffに基づいて、高忠実度音声波形を生成するエンドツーエンドのテキスト音声合成器FastDiff-TTSを設計する。
論文 参考訳(メタデータ) (2022-04-21T07:49:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。