論文の概要: DSFlow: Dual Supervision and Step-Aware Architecture for One-Step Flow Matching Speech Synthesis
- arxiv url: http://arxiv.org/abs/2602.09041v1
- Date: Tue, 03 Feb 2026 03:57:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.139777
- Title: DSFlow: Dual Supervision and Step-Aware Architecture for One-Step Flow Matching Speech Synthesis
- Title(参考訳): DSFlow:ワンステップフローマッチング音声合成のためのデュアルスーパービジョンとステップアウェアアーキテクチャ
- Authors: Bin Lin, Peng Yang, Chao Yan, Xiaochen Liu, Wei Wang, Boyong Wu, Pengfei Tan, Xuerui Yang,
- Abstract要約: フローマッチングモデルにより高品質なテキスト音声合成が可能になったが、推論時の反復サンプリングプロセスは相当な計算コストを発生させる。
DSFlowは,数ステップと1ステップの合成のためのモジュラー蒸留フレームワークである。
- 参考スコア(独自算出の注目度): 11.529725810139281
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Flow-matching models have enabled high-quality text-to-speech synthesis, but their iterative sampling process during inference incurs substantial computational cost. Although distillation is widely used to reduce the number of inference steps, existing methods often suffer from process variance due to endpoint error accumulation. Moreover, directly reusing continuous-time architectures for discrete, fixed-step generation introduces structural parameter inefficiencies. To address these challenges, we introduce DSFlow, a modular distillation framework for few-step and one-step synthesis. DSFlow reformulates generation as a discrete prediction task and explicitly adapts the student model to the target inference regime. It improves training stability through a dual supervision strategy that combines endpoint matching with deterministic mean-velocity alignment, enforcing consistent generation trajectories across inference steps. In addition, DSFlow improves parameter efficiency by replacing continuous-time timestep conditioning with lightweight step-aware tokens, aligning model capacity with the significantly reduced timestep space of the discrete task. Extensive experiments across diverse flow-based text-to-speech architectures demonstrate that DSFlow consistently outperforms standard distillation approaches, achieving strong few-step and one-step synthesis quality while reducing model parameters and inference cost.
- Abstract(参考訳): フローマッチングモデルにより高品質なテキスト音声合成が可能になったが、推論時の反復サンプリングプロセスは相当な計算コストを発生させる。
蒸留は推論ステップの数を減らすために広く用いられているが、既存の方法はエンドポイントエラーの蓄積によるプロセスのばらつきに悩まされることが多い。
さらに、離散的な固定ステップ生成のために連続時間アーキテクチャを直接再利用することは、構造パラメータ非効率を導入する。
これらの課題に対処するために,数ステップと1ステップの合成のためのモジュラー蒸留フレームワークであるDSFlowを紹介した。
DSFlowは、生成を離散的な予測タスクとして再編成し、学生モデルをターゲット推論規則に明示的に適応させる。
終端マッチングと決定論的平均速度アライメントを組み合わせた二重監督戦略により、トレーニングの安定性を改善し、推論ステップ間で一貫した生成軌跡を強制する。
さらにDSFlowは、連続時間のタイムステップ条件を軽量なステップ対応トークンに置き換え、モデルのキャパシティを離散タスクの時間ステップ空間を大幅に削減することで、パラメータ効率を向上させる。
各種フローベーステキスト音声アーキテクチャの広範な実験により、DSFlowは標準蒸留手法より一貫して優れており、モデルパラメータと推論コストを低減しつつ、強い数ステップと1ステップの合成品質を達成することが示されている。
関連論文リスト
- FlowConsist: Make Your Flow Consistent with Real Trajectory [99.22869983378062]
現在の高速フロートレーニングパラダイムには,2つの根本的な問題がある,と我々は主張する。
ランダムにペアリングされたノイズデータサンプルから構築された条件付き速度は、系統的な軌跡ドリフトを導入する。
本研究では,高速フローにおける軌道整合性を実現するためのトレーニングフレームワークであるFlowConsistを提案する。
論文 参考訳(メタデータ) (2026-02-06T03:24:23Z) - Temporal Pair Consistency for Variance-Reduced Flow Matching [13.328987133593154]
TPC(Temporal Pair Consistency)は、同じ確率経路に沿ってペア化された時間ステップで速度予測を結合する軽量な分散還元原理である。
フローマッチング内で確立されたTPCは、複数の解像度でCIFAR-10とImageNetのサンプル品質と効率を改善する。
論文 参考訳(メタデータ) (2026-02-04T00:05:21Z) - Edit-Based Flow Matching for Temporal Point Processes [51.33476564706644]
時間的ポイントプロセス(TPP)は、イベントシーケンスを連続的にモデル化するための基本的なツールである。
最近の非自己回帰拡散型モデルでは、ノイズとデータとの連立補間によってこれらの問題を緩和している。
本稿では,TPPの編集操作を挿入,削除,置換することで,ノイズをデータに転送する編集フロープロセスを提案する。
論文 参考訳(メタデータ) (2025-10-07T15:44:12Z) - Shortcut Flow Matching for Speech Enhancement: Step-Invariant flows via single stage training [20.071957855504206]
拡散に基づく生成モデルは、音声強調における知覚品質の最先端性能を達成した。
音声強調のためのショートカットフローマッチング(SFMSE)を導入する。
その結果,一段階のSFMSE推論により,コンシューマGPU上でのリアルタイム係数(RTF)が0.013となることを示した。
論文 参考訳(メタデータ) (2025-09-25T20:09:05Z) - MeanFlow-Accelerated Multimodal Video-to-Audio Synthesis via One-Step Generation [12.665130073406651]
サイレントビデオから音声を合成する上で重要な課題は、合成品質と推論効率のトレードオフである。
平均速度を用いて流れ場を特徴付ける平均流加速モデルを提案する。
我々は,MeanFlowをネットワークに組み込むことで,知覚品質を損なうことなく推論速度を大幅に向上することを示した。
論文 参考訳(メタデータ) (2025-09-08T07:15:21Z) - SwiftVideo: A Unified Framework for Few-Step Video Generation through Trajectory-Distribution Alignment [76.60024640625478]
拡散ベースまたはフローベースモデルは、ビデオ合成において大きな進歩を遂げているが、複数の反復サンプリングステップが必要である。
本稿では, トラジェクトリ保存と分散マッチングの利点を組み合わせた, 統一かつ安定な蒸留フレームワークを提案する。
提案手法は高品質なビデオ生成を維持しつつ,推論ステップの数を著しく削減する。
論文 参考訳(メタデータ) (2025-08-08T07:26:34Z) - ReDi: Rectified Discrete Flow [17.72385262464804]
条件付きトータル相関(TC)を用いた分解近似誤差の解析
本稿では,因子分解誤差を低減させる新しい反復法であるRectified Discrete Flow (ReDi)を提案する。
経験的に、ReDiはConditional TCを大幅に削減し、数ステップ生成を可能にします。
論文 参考訳(メタデータ) (2025-07-21T01:18:44Z) - Nesterov Method for Asynchronous Pipeline Parallel Optimization [59.79227116582264]
パイプライン並列処理における非同期最適化のために,Nesterov Accelerated Gradient (NAG) の変種を導入する。
具体的には、NAGのルックアヘッドステップを変更して、勾配の安定性を効果的に解決する。
我々は、勾配の固定遅延の存在下で、我々のアプローチがサブ線形速度で収束することを理論的に証明する。
論文 参考訳(メタデータ) (2025-05-02T08:23:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。