論文の概要: Compose Yourself: Average-Velocity Flow Matching for One-Step Speech Enhancement
- arxiv url: http://arxiv.org/abs/2509.15952v2
- Date: Mon, 22 Sep 2025 13:01:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 14:36:45.659417
- Title: Compose Yourself: Average-Velocity Flow Matching for One-Step Speech Enhancement
- Title(参考訳): 1ステップ音声強調のための平均速度流マッチング
- Authors: Gang Yang, Yue Lei, Wenxin Tai, Jin Wu, Jia Chen, Ting Zhong, Fan Zhou,
- Abstract要約: COSEは音声強調に適した一段階FMフレームワークである。
平均速度を効率的に計算するための速度合成IDを導入する。
実験によると、COSEはサンプリングを最大5倍速くし、トレーニングコストを40%削減する。
- 参考スコア(独自算出の注目度): 46.23750572308065
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion and flow matching (FM) models have achieved remarkable progress in speech enhancement (SE), yet their dependence on multi-step generation is computationally expensive and vulnerable to discretization errors. Recent advances in one-step generative modeling, particularly MeanFlow, provide a promising alternative by reformulating dynamics through average velocity fields. In this work, we present COSE, a one-step FM framework tailored for SE. To address the high training overhead of Jacobian-vector product (JVP) computations in MeanFlow, we introduce a velocity composition identity to compute average velocity efficiently, eliminating expensive computation while preserving theoretical consistency and achieving competitive enhancement quality. Extensive experiments on standard benchmarks show that COSE delivers up to 5x faster sampling and reduces training cost by 40%, all without compromising speech quality. Code is available at https://github.com/ICDM-UESTC/COSE.
- Abstract(参考訳): 拡散流整合(FM)モデルは音声強調(SE)において顕著な進歩を遂げているが、多段階生成への依存は計算コストが高く、離散化誤差に弱い。
最近の一段階生成モデリングの進歩、特にMeanFlowは、平均速度場を通して力学を再構成することで、有望な代替手段を提供する。
本稿では,SEに適した一段階FMフレームワークであるCOSEを紹介する。
MeanFlowにおけるJacobian-vector Product (JVP) 計算の高い訓練オーバーヘッドに対処するため、平均速度を効率的に計算するための速度合成IDを導入し、理論的な一貫性を維持しながら高価な計算を排除し、競争力を高める品質を実現する。
標準ベンチマークの大規模な実験によると、COSEは最大で5倍高速なサンプリングを実現し、トレーニングコストを40%削減する。
コードはhttps://github.com/ICDM-UESTC/COSEで入手できる。
関連論文リスト
- MeanFlowSE: one-step generative speech enhancement via conditional mean flow [13.437825847370442]
MeanFlowSEは、軌道に沿った有限区間の平均速度を学習する条件付き生成モデルである。
VoiceBank-DEMANDでは、シングルステップモデルは多ステップベースラインよりも計算コストが大幅に低い強い知性、忠実性、知覚品質を実現する。
論文 参考訳(メタデータ) (2025-09-18T11:24:47Z) - SplitMeanFlow: Interval Splitting Consistency in Few-Step Generative Modeling [23.539625950964876]
Flow Matchingのような生成モデルは最先端のパフォーマンスを達成したが、しばしば計算コストのかかる反復サンプリングプロセスによって妨げられている。
この分野の先導的手法であるMeanFlowは、平均速度と瞬間速度を接続する差分IDを強制することによって、この分野を学習する。
この研究において、この微分定式化はより基本的な原理の限定的な特別な場合であると主張する。
SplitMeanFlowは、学習目的として、この代数的一貫性を直接強制する新しいトレーニングフレームワークです。
論文 参考訳(メタデータ) (2025-07-22T16:26:58Z) - Flexiffusion: Training-Free Segment-Wise Neural Architecture Search for Efficient Diffusion Models [50.260693393896716]
拡散モデル(DM)は高忠実度画像を生成できる強力な生成モデルであるが、高い計算コストで制約される。
我々は、事前訓練されたパラメータを変更することなく、生成スケジュールとモデルアーキテクチャを協調的に最適化する、トレーニング不要なNASフレームワークFlexiffusionを提案する。
我々の研究は、品質を犠牲にすることなく高速DMを検索するための資源効率の良いパラダイムを開拓した。
論文 参考訳(メタデータ) (2025-06-03T06:02:50Z) - FlowTS: Time Series Generation via Rectified Flow [67.41208519939626]
FlowTSは、確率空間における直線輸送を伴う整流フローを利用するODEベースのモデルである。
非条件設定では、FlowTSは最先端のパフォーマンスを達成し、コンテキストFIDスコアはStockとETThデータセットで0.019と0.011である。
条件設定では、太陽予測において優れた性能を達成している。
論文 参考訳(メタデータ) (2024-11-12T03:03:23Z) - Consistency Flow Matching: Defining Straight Flows with Velocity Consistency [97.28511135503176]
本稿では,速度場の自己整合性を明示する新しいFM法であるConsistency Flow Matching(Consistency-FM)を紹介する。
予備実験により、一貫性FMは、一貫性モデルよりも4.4倍速く収束することにより、トレーニング効率を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-07-02T16:15:37Z) - Reducing Spatial Discretization Error on Coarse CFD Simulations Using an OpenFOAM-Embedded Deep Learning Framework [0.7223509567556214]
本研究では,深層学習を用いたシミュレーションの品質向上により,流体力学問題の空間的離散化誤差を低減する手法を提案する。
我々は、粗いグリッドの離散化に投射した後、細粒度のデータでモデルをフィードする。
我々は、セル中心からフェイス値への速度を補間するフィードフォワードニューラルネットワークにより、対流項のデフォルトの差分スキームを置換し、ダウンサンプリングされた微細グリッドデータをよく近似する速度を生成する。
論文 参考訳(メタデータ) (2024-05-13T02:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。