論文の概要: Shortcut Flow Matching for Speech Enhancement: Step-Invariant flows via single stage training
- arxiv url: http://arxiv.org/abs/2509.21522v1
- Date: Thu, 25 Sep 2025 20:09:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:53.976182
- Title: Shortcut Flow Matching for Speech Enhancement: Step-Invariant flows via single stage training
- Title(参考訳): 音声強調のためのショートカットフローマッチング:シングルステージトレーニングによるステップ不変フロー
- Authors: Naisong Zhou, Saisamarth Rajesh Phaye, Milos Cernak, Tijana Stojkovic, Andy Pearce, Andrea Cavallaro, Andy Harper,
- Abstract要約: 拡散に基づく生成モデルは、音声強調における知覚品質の最先端性能を達成した。
音声強調のためのショートカットフローマッチング(SFMSE)を導入する。
その結果,一段階のSFMSE推論により,コンシューマGPU上でのリアルタイム係数(RTF)が0.013となることを示した。
- 参考スコア(独自算出の注目度): 20.071957855504206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion-based generative models have achieved state-of-the-art performance for perceptual quality in speech enhancement (SE). However, their iterative nature requires numerous Neural Function Evaluations (NFEs), posing a challenge for real-time applications. On the contrary, flow matching offers a more efficient alternative by learning a direct vector field, enabling high-quality synthesis in just a few steps using deterministic ordinary differential equation~(ODE) solvers. We thus introduce Shortcut Flow Matching for Speech Enhancement (SFMSE), a novel approach that trains a single, step-invariant model. By conditioning the velocity field on the target time step during a one-stage training process, SFMSE can perform single, few, or multi-step denoising without any architectural changes or fine-tuning. Our results demonstrate that a single-step SFMSE inference achieves a real-time factor (RTF) of 0.013 on a consumer GPU while delivering perceptual quality comparable to a strong diffusion baseline requiring 60 NFEs. This work also provides an empirical analysis of the role of stochasticity in training and inference, bridging the gap between high-quality generative SE and low-latency constraints.
- Abstract(参考訳): 拡散に基づく生成モデルは、音声強調(SE)における知覚品質の最先端性能を達成した。
しかし、その反復性には多くのニューラルファンクション評価(NFE)が必要であり、リアルタイムアプリケーションには課題がある。
それとは対照的に、フローマッチングは直接ベクトル場を学習することでより効率的な代替手段を提供し、決定論的常微分方程式~(ODE)ソルバを用いてわずか数ステップで高品質な合成を可能にする。
本研究では,音声強調のためのショートカットフローマッチング(SFMSE)を提案する。
1段階のトレーニングプロセスにおいて、目標時間ステップの速度場を条件付けすることにより、SFMSEは、アーキテクチャの変更や微調整なしに、単一、少数、多段階のデノナイズを行うことができる。
以上の結果から,単一ステップのSFMSE推論が一般GPU上で0.013のリアルタイム係数(RTF)を達成すると同時に,60 NFEを必要とする強い拡散ベースラインに匹敵する知覚品質を実現することを示す。
この研究は、訓練と推論における確率性の役割を実証的に分析し、高品質な生成SEと低遅延制約の間のギャップを埋める。
関連論文リスト
- MeanFlow-Accelerated Multimodal Video-to-Audio Synthesis via One-Step Generation [12.665130073406651]
サイレントビデオから音声を合成する上で重要な課題は、合成品質と推論効率のトレードオフである。
平均速度を用いて流れ場を特徴付ける平均流加速モデルを提案する。
我々は,MeanFlowをネットワークに組み込むことで,知覚品質を損なうことなく推論速度を大幅に向上することを示した。
論文 参考訳(メタデータ) (2025-09-08T07:15:21Z) - Modular MeanFlow: Towards Stable and Scalable One-Step Generative Modeling [0.07646713951724012]
一段階生成モデリングは、単一関数評価において高品質なデータサンプルを生成することを目指している。
本研究では、時間平均速度場を学習するための柔軟で理論的に基礎付けられたアプローチであるModular MeanFlowを紹介する。
論文 参考訳(メタデータ) (2025-08-24T16:00:08Z) - Improving Progressive Generation with Decomposable Flow Matching [50.63174319509629]
Decomposable Flow Matching (DFM)は、ビジュアルメディアのプログレッシブな生成のためのシンプルで効果的なフレームワークである。
Imagenet-1k 512pxでは、DFMはベースアーキテクチャよりも35.2%改善され、ベースラインは26.4%向上した。
論文 参考訳(メタデータ) (2025-06-24T17:58:02Z) - AudioTurbo: Fast Text-to-Audio Generation with Rectified Diffusion [23.250409921931492]
整流流は直線常微分方程式経路を学習することにより推論速度を向上させる。
このアプローチでは、フローマッチングモデルをスクラッチからトレーニングする必要があります。
本稿では,事前学習したTTAモデルにより生成された定性雑音サンプルペアから一階ODEパスを学習するAudioTurboを提案する。
論文 参考訳(メタデータ) (2025-05-28T08:33:58Z) - Fast T2T: Optimization Consistency Speeds Up Diffusion-Based Training-to-Testing Solving for Combinatorial Optimization [83.65278205301576]
雑音レベルから与えられたインスタンスの最適解への直接写像を学習し、最小限のショットで高品質な生成を容易にすることを提案する。
これは、サンプル間の差を最小限に抑える最適化一貫性トレーニングプロトコルによって達成される。
The Traveling Salesman Problem (TSP) と Maximal Independent Set (MIS) は、ソリューションの品質と効率の両方に関して、Fast T2Tの優位性を実証している。
論文 参考訳(メタデータ) (2025-02-05T07:13:43Z) - Language Rectified Flow: Advancing Diffusion Language Generation with Probabilistic Flows [53.31856123113228]
本稿では,言語認識フロー (ours) を提案する。
本手法は, 標準確率流モデルの再構成に基づく。
実験およびアブレーション実験により,本手法は多くのNLPタスクに対して汎用的,効果的,有益であることが示されている。
論文 参考訳(メタデータ) (2024-03-25T17:58:22Z) - Guided Flows for Generative Modeling and Decision Making [55.42634941614435]
その結果,ガイドフローは条件付き画像生成やゼロショット音声合成におけるサンプル品質を著しく向上させることがわかった。
特に、我々は、拡散モデルと比較して、オフライン強化学習設定axスピードアップにおいて、まず、計画生成にフローモデルを適用する。
論文 参考訳(メタデータ) (2023-11-22T15:07:59Z) - Boosting Fast and High-Quality Speech Synthesis with Linear Diffusion [85.54515118077825]
本稿では, 常微分方程式に基づく線形拡散モデル(LinDiff)を提案する。
計算複雑性を低減するため、LinDiffでは、入力信号を小さなパッチに分割するパッチベースの処理アプローチを採用している。
我々のモデルは、より高速な合成速度で自己回帰モデルに匹敵する品質の音声を合成することができる。
論文 参考訳(メタデータ) (2023-06-09T07:02:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。