Fugu-MT 論文翻訳(概要): VoiceFlow: Efficient Text-to-Speech with Rectified Flow Matching

論文の概要: VoiceFlow: Efficient Text-to-Speech with Rectified Flow Matching

arxiv url: http://arxiv.org/abs/2309.05027v2
Date: Tue, 16 Jan 2024 07:38:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-18 01:49:59.461218
Title: VoiceFlow: Efficient Text-to-Speech with Rectified Flow Matching
Title（参考訳）: VoiceFlow: 正規化フローマッチングによるテキスト音声合成の効率化
Authors: Yiwei Guo, Chenpeng Du, Ziyang Ma, Xie Chen, Kai Yu
Abstract要約: VoiceFlowは,修正フローマッチングアルゴリズムを用いて,限られたサンプリングステップ数で高い合成品質を実現する音響モデルである。単話者コーパスと多話者コーパスの主観的および客観的評価の結果,VoiceFlowの合成品質は拡散コーパスに比べて優れていた。
参考スコア（独自算出の注目度）: 15.87536747039192
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Although diffusion models in text-to-speech have become a popular choice due to their strong generative ability, the intrinsic complexity of sampling from diffusion models harms their efficiency. Alternatively, we propose VoiceFlow, an acoustic model that utilizes a rectified flow matching algorithm to achieve high synthesis quality with a limited number of sampling steps. VoiceFlow formulates the process of generating mel-spectrograms into an ordinary differential equation conditional on text inputs, whose vector field is then estimated. The rectified flow technique then effectively straightens its sampling trajectory for efficient synthesis. Subjective and objective evaluations on both single and multi-speaker corpora showed the superior synthesis quality of VoiceFlow compared to the diffusion counterpart. Ablation studies further verified the validity of the rectified flow technique in VoiceFlow.
Abstract（参考訳）: テキストから音声への拡散モデルは、その強力な生成能力から人気があるが、拡散モデルからのサンプリングの本質的な複雑さは、その効率を損なう。また, サンプリングステップ数を限定して高い合成品質を実現するために, 整流フローマッチングアルゴリズムを用いた音響モデルであるvoiceflowを提案する。 VoiceFlowは、ベクトル場を推定するテキスト入力に基づいて通常の微分方程式にメルスペクトルを生成する過程を定式化する。整流流法は効率的な合成のためにサンプリング軌道を効果的に整列する。単話者コーパスと多話者コーパスの主観的および客観的評価の結果,VoiceFlowの合成品質は拡散コーパスに比べて優れていた。さらに,VoiceFlowにおける正流法の妥当性を検証した。

関連論文リスト

MeanVoiceFlow: One-step Nonparallel Voice Conversion with Mean Flows [42.55959060773461]
MeanVoiceFlowは平均フローに基づいた1ステップのノン並列VCモデルである。 MeanVoiceFlowは、従来のマルチステップおよび蒸留ベースのモデルに匹敵するパフォーマンスを達成する。
論文参考訳（メタデータ） (2026-02-20T09:48:23Z)
MeanFlow-Accelerated Multimodal Video-to-Audio Synthesis via One-Step Generation [12.665130073406651]
サイレントビデオから音声を合成する上で重要な課題は、合成品質と推論効率のトレードオフである。平均速度を用いて流れ場を特徴付ける平均流加速モデルを提案する。我々は,MeanFlowをネットワークに組み込むことで,知覚品質を損なうことなく推論速度を大幅に向上することを示した。
論文参考訳（メタデータ） (2025-09-08T07:15:21Z)
SlimSpeech: Lightweight and Efficient Text-to-Speech with Slim Rectified Flow [12.634298353225455]
整流に基づく軽量かつ効率的な音声合成システムであるSlimSpeechを紹介する。実験の結果,提案手法は1ステップのサンプリングにより大規模モデルに匹敵する性能を示した。
論文参考訳（メタデータ） (2025-04-10T14:15:18Z)
DMOSpeech: Direct Metric Optimization via Distilled Diffusion Model in Zero-Shot Speech Synthesis [12.310318928818546]
DMOSpeechは, 蒸留拡散に基づくTSモデルであり, 教師モデルと比較して高速な推論と優れた性能を実現する。我々の総合的な実験は、人間の広範囲な評価によって検証され、自然性、知性、話者の類似性を大幅に向上させながら、推測時間を桁違いに減らした。本研究は,音声合成と人間の聴覚嗜好を協調する新たな枠組みを,直接的メートル法最適化により確立する。
論文参考訳（メタデータ） (2024-10-14T21:17:58Z)
Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2024-06-01T06:40:22Z)
Language Rectified Flow: Advancing Diffusion Language Generation with Probabilistic Flows [53.31856123113228]
本稿では,言語認識フロー (ours) を提案する。本手法は, 標準確率流モデルの再構成に基づく。実験およびアブレーション実験により,本手法は多くのNLPタスクに対して汎用的,効果的,有益であることが示されている。
論文参考訳（メタデータ） (2024-03-25T17:58:22Z)
High-Fidelity Speech Synthesis with Minimal Supervision: All Using Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文参考訳（メタデータ） (2023-09-27T09:27:03Z)
Boosting Fast and High-Quality Speech Synthesis with Linear Diffusion [85.54515118077825]
本稿では, 常微分方程式に基づく線形拡散モデル(LinDiff)を提案する。計算複雑性を低減するため、LinDiffでは、入力信号を小さなパッチに分割するパッチベースの処理アプローチを採用している。我々のモデルは、より高速な合成速度で自己回帰モデルに匹敵する品質の音声を合成することができる。
論文参考訳（メタデータ） (2023-06-09T07:02:43Z)
DiffVoice: Text-to-Speech with Latent Diffusion [18.150627638754923]
本稿では,遅延拡散に基づく新しい音声合成モデルDiffVoiceを提案する。 LJSpeech と LibriTTS データセットの主観評価は,本手法が自然界で最高の公開システムに勝っていることを示す。
論文参考訳（メタデータ） (2023-04-23T21:05:33Z)
SeqDiffuSeq: Text Diffusion with Encoder-Decoder Transformers [50.90457644954857]
本研究では,拡散モデルを用いてシーケンス・ツー・シーケンスのテキスト生成を行う。シーケンス・ツー・シーケンス生成のためのテキスト拡散モデルであるSeqDiffuSeqを提案する。実験結果は、テキストの品質と推論時間の観点から、シーケンス・ツー・シーケンス生成の優れた性能を示す。
論文参考訳（メタデータ） (2022-12-20T15:16:24Z)
Differentiable Duration Modeling for End-to-End Text-to-Speech [6.571447892202893]
並列テキスト音声合成(TTS)モデルは,最近,高速で自然な音声合成を実現している。本稿では,入力と出力のモノトニックシーケンスを学習するための可変長法を提案する。本モデルでは,高忠実度合成を,対向学習と全地下構造時間との整合性の組み合わせにより学習する。
論文参考訳（メタデータ） (2022-03-21T15:14:44Z)
Wave-Tacotron: Spectrogram-free end-to-end text-to-speech synthesis [25.234945748885348]
本稿では,テキスト入力から直接音声波形を生成するシーケンス・ツー・シーケンスニューラルネットワークについて述べる。アーキテクチャは、自己回帰デコーダループに正規化フローを組み込むことで、タコトロンモデルを拡張する。実験により,提案モデルが最先端のニューラルTSシステムに近づく品質の音声を生成することが示された。
論文参考訳（メタデータ） (2020-11-06T19:30:07Z)
Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文参考訳（メタデータ） (2020-09-06T13:01:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。