論文の概要: Shallow Flow Matching for Coarse-to-Fine Text-to-Speech Synthesis
- arxiv url: http://arxiv.org/abs/2505.12226v1
- Date: Sun, 18 May 2025 04:15:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.105125
- Title: Shallow Flow Matching for Coarse-to-Fine Text-to-Speech Synthesis
- Title(参考訳): テキスト・音声合成のための浅部フローマッチング
- Authors: Dong Yang, Yiyi Cai, Yuki Saito, Lixu Wang, Hiroshi Saruwatari,
- Abstract要約: フローマッチング(FM)ベースのテキスト音声合成(TTS)モデルを強化するための浅いフローマッチング(SFM)機構。
実験の結果,SFMは主観的評価と主観的評価の両方において,合成音声の自然な性質を一貫して改善することがわかった。
- 参考スコア(独自算出の注目度): 30.98512463695203
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a shallow flow matching (SFM) mechanism to enhance flow matching (FM)-based text-to-speech (TTS) models within a coarse-to-fine generation paradigm. SFM constructs intermediate states along the FM paths using coarse output representations. During training, we introduce an orthogonal projection method to adaptively determine the temporal position of these states, and apply a principled construction strategy based on a single-segment piecewise flow. The SFM inference starts from the intermediate state rather than pure noise and focuses computation on the latter stages of the FM paths. We integrate SFM into multiple TTS models with a lightweight SFM head. Experiments show that SFM consistently improves the naturalness of synthesized speech in both objective and subjective evaluations, while significantly reducing inference when using adaptive-step ODE solvers. Demo and codes are available at https://ydqmkkx.github.io/SFMDemo/.
- Abstract(参考訳): 粗大な生成パラダイム内でのフローマッチング(FM)に基づくテキスト音声合成(TTS)モデルを強化するための浅層流マッチング(SFM)機構を提案する。
SFMは、粗い出力表現を用いてFMパスに沿って中間状態を構成する。
トレーニング中、これらの状態の時間的位置を適応的に決定する直交射影法を導入し、単一セグメントのピースワイズフローに基づく基本構成戦略を適用した。
SFM推論は、純粋なノイズではなく中間状態から始まり、FMパスの後半ステージに計算に焦点を当てる。
我々は、SFMを軽量なSFMヘッドで複数のTSモデルに統合する。
実験の結果,SFMは主観評価と主観評価の両方において合成音声の自然な性質を一貫して改善し,適応ステップODEソルバを用いた場合の推論を著しく低減することがわかった。
デモとコードはhttps://ydqmkkx.github.io/SFMDemo/で公開されている。
関連論文リスト
- DFM: Interpolant-free Dual Flow Matching [0.8192907805418583]
モデルベクトル場に関する明示的な仮定を伴わない補間自由二重流れマッチング(DFM)手法を提案する。
SMAPによる教師なし異常検出実験は、最大極度またはFM目標で訓練されたCNFと比較して、DFMの利点を示す。
論文 参考訳(メタデータ) (2024-10-11T20:46:04Z) - Local Flow Matching Generative Models [19.859984725284896]
局所フローマッチング(Local Flow Matching)は、フローベース生成モデルに基づく密度推定のための計算フレームワークである。
$textttLFM$はシミュレーション不要のスキームを採用し、フローマッチングサブモデルのシーケンスを漸進的に学習する。
FMと比較して, $textttLFM$ のトレーニング効率と競争的生成性能の改善を実証した。
論文 参考訳(メタデータ) (2024-10-03T14:53:10Z) - Consistency Flow Matching: Defining Straight Flows with Velocity Consistency [97.28511135503176]
本稿では,速度場の自己整合性を明示する新しいFM法であるConsistency Flow Matching(Consistency-FM)を紹介する。
予備実験により、一貫性FMは、一貫性モデルよりも4.4倍速く収束することにより、トレーニング効率を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-07-02T16:15:37Z) - FedPFT: Federated Proxy Fine-Tuning of Foundation Models [55.58899993272904]
フェデレートラーニング(FL)を通じて下流タスクにファンデーションモデル(FM)を適用することは、データプライバシと価値のあるFMを保護するための有望な戦略として現れます。
FLのクライアントにサブFMを割り当てることによる既存のFMの微調整手法は、チューニングが不十分で勾配の必然的エラー蓄積が避けられないため、最適以下の性能をもたらす。
本稿では,FedPFT(Federated Proxy Fine-Tuning)を提案する。
論文 参考訳(メタデータ) (2024-04-17T16:30:06Z) - Improving and generalizing flow-based generative models with minibatch
optimal transport [90.01613198337833]
連続正規化フロー(CNF)のための一般条件流整合(CFM)技術を導入する。
CFMは、拡散モデルのフローをトレーニングするために使用されるような安定した回帰目標を特徴としているが、決定論的フローモデルの効率的な推論を好んでいる。
我々の目的の変種は最適輸送CFM (OT-CFM) であり、訓練がより安定し、より高速な推論をもたらすより単純なフローを生成する。
論文 参考訳(メタデータ) (2023-02-01T14:47:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。