論文の概要: Flowing Straighter with Conditional Flow Matching for Accurate Speech Enhancement
- arxiv url: http://arxiv.org/abs/2508.20584v1
- Date: Thu, 28 Aug 2025 09:21:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.277744
- Title: Flowing Straighter with Conditional Flow Matching for Accurate Speech Enhancement
- Title(参考訳): 高精度音声強調のための条件付き流路整合器
- Authors: Mattias Cross, Anton Ragni,
- Abstract要約: 音声強調品質に対する経路の直線性の影響を定量化する。
音声強調のための独立条件付きフローマッチングを提案する。
本研究は,時間非依存の確率経路が湾曲した時間依存の経路よりも生成的音声強調を改善することを示唆している。
- 参考スコア(独自算出の注目度): 9.819282593360452
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current flow-based generative speech enhancement methods learn curved probability paths which model a mapping between clean and noisy speech. Despite impressive performance, the implications of curved probability paths are unknown. Methods such as Schrodinger bridges focus on curved paths, where time-dependent gradients and variance do not promote straight paths. Findings in machine learning research suggest that straight paths, such as conditional flow matching, are easier to train and offer better generalisation. In this paper we quantify the effect of path straightness on speech enhancement quality. We report experiments with the Schrodinger bridge, where we show that certain configurations lead to straighter paths. Conversely, we propose independent conditional flow-matching for speech enhancement, which models straight paths between noisy and clean speech. We demonstrate empirically that a time-independent variance has a greater effect on sample quality than the gradient. Although conditional flow matching improves several speech quality metrics, it requires multiple inference steps. We rectify this with a one-step solution by inferring the trained flow-based model as if it was directly predictive. Our work suggests that straighter time-independent probability paths improve generative speech enhancement over curved time-dependent paths.
- Abstract(参考訳): 現在のフローベース生成音声強調法は、クリーン音声とノイズ音声のマッピングをモデル化した曲線付き確率パスを学習する。
優れた性能にもかかわらず、湾曲した確率経路の意味は分かっていない。
シュロディンガーブリッジのような手法は、時間依存の勾配と分散が直線パスを促進しない曲線に焦点をあてる。
機械学習研究における発見は、条件付きフローマッチングのような直線的なパスは、訓練が簡単で、より良い一般化を提供することを示唆している。
本稿では,音声強調品質に及ぼす経路の直線性の影響を定量化する。
我々はシュロディンガー橋の実験を行い、ある構成がより直線的な経路につながることを示す。
逆に,雑音とクリーン音声間の直線経路をモデル化した音声強調のための独立条件付きフローマッチングを提案する。
時間非依存の分散が,勾配よりも試料品質に大きな影響を与えることを実証的に実証した。
条件付きフローマッチングは、いくつかの音声品質指標を改善するが、複数の推論ステップを必要とする。
トレーニングされたフローベースモデルを直接予測するかのように推論することで、これを一段階のソリューションで修正する。
本研究は,時間非依存の確率経路が湾曲した時間依存の経路よりも生成的音声強調を改善することを示唆している。
関連論文リスト
- Flow Matching: Markov Kernels, Stochastic Processes and Transport Plans [1.9766522384767222]
フローマッチング技術は、逆問題の解決に利用できる。
逆問題の解法として,フローマッチングが有効であることを示す。
本稿では,連続正規化フローとスコアマッチング手法について簡潔に述べる。
論文 参考訳(メタデータ) (2025-01-28T10:28:17Z) - Rectified Diffusion: Straightness Is Not Your Need in Rectified Flow [65.51671121528858]
拡散モデルは、視覚生成を大幅に改善したが、生成ODEを解くという計算集約的な性質のため、生成速度の遅さによって妨げられている。
広く認識されている解である整流流は、ODEパスを直線化することで生成速度を向上させる。
本稿では,より広範な拡散モデルのカテゴリをカバーするために,設計空間と修正の応用範囲を一般化するRectified Diffusionを提案する。
論文 参考訳(メタデータ) (2024-10-09T17:43:38Z) - Consistency Flow Matching: Defining Straight Flows with Velocity Consistency [97.28511135503176]
本稿では,速度場の自己整合性を明示する新しいFM法であるConsistency Flow Matching(Consistency-FM)を紹介する。
予備実験により、一貫性FMは、一貫性モデルよりも4.4倍速く収束することにより、トレーニング効率を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-07-02T16:15:37Z) - Optimal Flow Matching: Learning Straight Trajectories in Just One Step [89.37027530300617]
我々は,新しいtextbf Optimal Flow Matching (OFM) アプローチを開発し,理論的に正当化する。
これは2次輸送のための直列のOT変位をFMの1ステップで回復することを可能にする。
提案手法の主な考え方は,凸関数によってパラメータ化されるFMのベクトル場の利用である。
論文 参考訳(メタデータ) (2024-03-19T19:44:54Z) - Boosting Fast and High-Quality Speech Synthesis with Linear Diffusion [85.54515118077825]
本稿では, 常微分方程式に基づく線形拡散モデル(LinDiff)を提案する。
計算複雑性を低減するため、LinDiffでは、入力信号を小さなパッチに分割するパッチベースの処理アプローチを採用している。
我々のモデルは、より高速な合成速度で自己回帰モデルに匹敵する品質の音声を合成することができる。
論文 参考訳(メタデータ) (2023-06-09T07:02:43Z) - Flow Straight and Fast: Learning to Generate and Transfer Data with
Rectified Flow [32.459587479351846]
我々は、(神経)常微分方程式(ODE)モデルを学ぶための驚くほど単純なアプローチである整流流を提示する。
補正フローは画像生成,画像から画像への変換,ドメイン適応に優しく作用することを示す。
論文 参考訳(メタデータ) (2022-09-07T08:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。