論文の概要: Shallow Flow Matching for Coarse-to-Fine Text-to-Speech Synthesis
- arxiv url: http://arxiv.org/abs/2505.12226v1
- Date: Sun, 18 May 2025 04:15:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.105125
- Title: Shallow Flow Matching for Coarse-to-Fine Text-to-Speech Synthesis
- Title(参考訳): テキスト・音声合成のための浅部フローマッチング
- Authors: Dong Yang, Yiyi Cai, Yuki Saito, Lixu Wang, Hiroshi Saruwatari,
- Abstract要約: フローマッチング(FM)ベースのテキスト音声合成(TTS)モデルを強化するための浅いフローマッチング(SFM)機構。
実験の結果,SFMは主観的評価と主観的評価の両方において,合成音声の自然な性質を一貫して改善することがわかった。
- 参考スコア(独自算出の注目度): 30.98512463695203
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a shallow flow matching (SFM) mechanism to enhance flow matching (FM)-based text-to-speech (TTS) models within a coarse-to-fine generation paradigm. SFM constructs intermediate states along the FM paths using coarse output representations. During training, we introduce an orthogonal projection method to adaptively determine the temporal position of these states, and apply a principled construction strategy based on a single-segment piecewise flow. The SFM inference starts from the intermediate state rather than pure noise and focuses computation on the latter stages of the FM paths. We integrate SFM into multiple TTS models with a lightweight SFM head. Experiments show that SFM consistently improves the naturalness of synthesized speech in both objective and subjective evaluations, while significantly reducing inference when using adaptive-step ODE solvers. Demo and codes are available at https://ydqmkkx.github.io/SFMDemo/.
- Abstract(参考訳): 粗大な生成パラダイム内でのフローマッチング(FM)に基づくテキスト音声合成(TTS)モデルを強化するための浅層流マッチング(SFM)機構を提案する。
SFMは、粗い出力表現を用いてFMパスに沿って中間状態を構成する。
トレーニング中、これらの状態の時間的位置を適応的に決定する直交射影法を導入し、単一セグメントのピースワイズフローに基づく基本構成戦略を適用した。
SFM推論は、純粋なノイズではなく中間状態から始まり、FMパスの後半ステージに計算に焦点を当てる。
我々は、SFMを軽量なSFMヘッドで複数のTSモデルに統合する。
実験の結果,SFMは主観評価と主観評価の両方において合成音声の自然な性質を一貫して改善し,適応ステップODEソルバを用いた場合の推論を著しく低減することがわかった。
デモとコードはhttps://ydqmkkx.github.io/SFMDemo/で公開されている。
関連論文リスト
- Multi-Scale Finetuning for Encoder-based Time Series Foundation Models [56.503053716053]
時系列基礎モデル (TSFM) は, 時系列予測において印象的なゼロショット性能を示す。
我々は、TSFMの能力を十分に活用するに足りず、しばしば過度な適合と準最適性能をもたらすと論じている。
マルチスケールモデリングをファインタニングプロセスに明示的に統合するシンプルなフレームワークであるtextbftextscfinetextbftextsctuning (textbfMSFT)を提案する。
論文 参考訳(メタデータ) (2025-06-17T01:06:01Z) - Diff2Flow: Training Flow Matching Models via Diffusion Model Alignment [22.661660797545164]
拡散モデルは高忠実度出力によって生成タスクに革命をもたらしたが、フローマッチング(FM)はより高速な推論と経験的な性能向上を提供する。
この研究は、事前学習された拡散モデルからフローマッチングへの知識の伝達を効率的に行うという重要な課題に対処する。
本稿では,拡散とFMパラダイムを体系的にブリッジする新しいフレームワークであるDiff2Flowを提案し,時間ステップを再スケーリングし,補間を整列させ,拡散予測からFM互換速度場を導出する。
論文 参考訳(メタデータ) (2025-06-02T20:05:05Z) - DFM: Interpolant-free Dual Flow Matching [0.8192907805418583]
モデルベクトル場に関する明示的な仮定を伴わない補間自由二重流れマッチング(DFM)手法を提案する。
SMAPによる教師なし異常検出実験は、最大極度またはFM目標で訓練されたCNFと比較して、DFMの利点を示す。
論文 参考訳(メタデータ) (2024-10-11T20:46:04Z) - Local Flow Matching Generative Models [19.859984725284896]
局所フローマッチング(Local Flow Matching)は、フローベース生成モデルに基づく密度推定のための計算フレームワークである。
$textttLFM$はシミュレーション不要のスキームを採用し、フローマッチングサブモデルのシーケンスを漸進的に学習する。
FMと比較して, $textttLFM$ のトレーニング効率と競争的生成性能の改善を実証した。
論文 参考訳(メタデータ) (2024-10-03T14:53:10Z) - Consistency Flow Matching: Defining Straight Flows with Velocity Consistency [97.28511135503176]
本稿では,速度場の自己整合性を明示する新しいFM法であるConsistency Flow Matching(Consistency-FM)を紹介する。
予備実験により、一貫性FMは、一貫性モデルよりも4.4倍速く収束することにより、トレーニング効率を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-07-02T16:15:37Z) - On the Evaluation of Speech Foundation Models for Spoken Language Understanding [87.52911510306011]
Spoken Language Understanding Evaluation (SLUE) というベンチマークタスクスイートが最近導入され、オープンリソースやベンチマークの必要性に対処している。
このベンチマークは、これらのSLUタスクに事前訓練された音声基礎モデル(SFM)を使用することで、予備的な成功を収めた。
どのSFMがこれらの複雑なSLUタスクに最も恩恵をもたらすか、そしてこれらのSFMを組み込む上で最も効果的なアプローチは何か?
論文 参考訳(メタデータ) (2024-06-14T14:37:52Z) - FedPFT: Federated Proxy Fine-Tuning of Foundation Models [55.58899993272904]
フェデレートラーニング(FL)を通じて下流タスクにファンデーションモデル(FM)を適用することは、データプライバシと価値のあるFMを保護するための有望な戦略として現れます。
FLのクライアントにサブFMを割り当てることによる既存のFMの微調整手法は、チューニングが不十分で勾配の必然的エラー蓄積が避けられないため、最適以下の性能をもたらす。
本稿では,FedPFT(Federated Proxy Fine-Tuning)を提案する。
論文 参考訳(メタデータ) (2024-04-17T16:30:06Z) - Optimal Flow Matching: Learning Straight Trajectories in Just One Step [89.37027530300617]
我々は,新しいtextbf Optimal Flow Matching (OFM) アプローチを開発し,理論的に正当化する。
これは2次輸送のための直列のOT変位をFMの1ステップで回復することを可能にする。
提案手法の主な考え方は,凸関数によってパラメータ化されるFMのベクトル場の利用である。
論文 参考訳(メタデータ) (2024-03-19T19:44:54Z) - Precise Knowledge Transfer via Flow Matching [24.772381404849174]
我々はこのフレームワークをフローマッチングを用いた知識伝達(FM-KT)と呼ぶ。
FM-KTは任意の形態(バニラKD、DKD、PKD、DISTなど)のメートル法に基づく蒸留法と統合することができる。
提案手法のスケーラビリティと最先端性能を,関連する比較手法で実証的に検証した。
論文 参考訳(メタデータ) (2024-02-03T03:59:51Z) - Improving and generalizing flow-based generative models with minibatch
optimal transport [90.01613198337833]
連続正規化フロー(CNF)のための一般条件流整合(CFM)技術を導入する。
CFMは、拡散モデルのフローをトレーニングするために使用されるような安定した回帰目標を特徴としているが、決定論的フローモデルの効率的な推論を好んでいる。
我々の目的の変種は最適輸送CFM (OT-CFM) であり、訓練がより安定し、より高速な推論をもたらすより単純なフローを生成する。
論文 参考訳(メタデータ) (2023-02-01T14:47:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。