論文の概要: MeanVoiceFlow: One-step Nonparallel Voice Conversion with Mean Flows
- arxiv url: http://arxiv.org/abs/2602.18104v1
- Date: Fri, 20 Feb 2026 09:48:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 18:01:41.287369
- Title: MeanVoiceFlow: One-step Nonparallel Voice Conversion with Mean Flows
- Title(参考訳): MeanVoiceFlow:平均流を用いた1ステップ非並列音声変換
- Authors: Takuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka, Yuto Kondo,
- Abstract要約: MeanVoiceFlowは平均フローに基づいた1ステップのノン並列VCモデルである。
MeanVoiceFlowは、従来のマルチステップおよび蒸留ベースのモデルに匹敵するパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 42.55959060773461
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In voice conversion (VC) applications, diffusion and flow-matching models have exhibited exceptional speech quality and speaker similarity performances. However, they are limited by slow conversion owing to their iterative inference. Consequently, we propose MeanVoiceFlow, a novel one-step nonparallel VC model based on mean flows, which can be trained from scratch without requiring pretraining or distillation. Unlike conventional flow matching that uses instantaneous velocity, mean flows employ average velocity to more accurately compute the time integral along the inference path in a single step. However, training the average velocity requires its derivative to compute the target velocity, which can cause instability. Therefore, we introduce a structural margin reconstruction loss as a zero-input constraint, which moderately regularizes the input-output behavior of the model without harmful statistical averaging. Furthermore, we propose conditional diffused-input training in which a mixture of noise and source data is used as input to the model during both training and inference. This enables the model to effectively leverage source information while maintaining consistency between training and inference. Experimental results validate the effectiveness of these techniques and demonstrate that MeanVoiceFlow achieves performance comparable to that of previous multi-step and distillation-based models, even when trained from scratch. Audio samples are available at https://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/meanvoiceflow/.
- Abstract(参考訳): 音声変換(VC)の応用において,拡散および流速マッチングモデルは例外的な音声品質と話者類似性性能を示した。
しかし、それらは反復的推論のため、ゆっくりとした変換によって制限される。
その結果、平均フローに基づく新しい1ステップノン並列VCモデルであるMeanVoiceFlowを提案し、事前訓練や蒸留を必要とせず、ゼロからトレーニングすることができる。
瞬時速度を利用する従来の流れマッチングとは異なり、平均流は平均流速を使い、1ステップで推論経路に沿った時間積分をより正確に計算する。
しかし、平均速度のトレーニングは、目標速度を計算するためにその導関数を必要とし、不安定を引き起こす可能性がある。
そこで, 構造的マージン再構築損失をゼロ入力制約として導入し, 有害な統計的平均化を伴わずに, モデルの入力出力挙動を適度に調整する。
さらに,学習と推論の双方において,ノイズと音源データの混合をモデルへの入力として用いる条件拡散入力訓練を提案する。
これにより、トレーニングと推論の一貫性を維持しながら、ソース情報を効果的に活用することができる。
実験により, これらの手法の有効性を検証し, 従来の多段階・蒸留モデルに匹敵する性能を示した。
オーディオサンプルはhttps://www.kecl.ntt.co.jp/people/ Kaneko.takuhiro/projects/meanvoiceflow/で入手できる。
関連論文リスト
- MeanFlowSE: one-step generative speech enhancement via conditional mean flow [13.437825847370442]
MeanFlowSEは、軌道に沿った有限区間の平均速度を学習する条件付き生成モデルである。
VoiceBank-DEMANDでは、シングルステップモデルは多ステップベースラインよりも計算コストが大幅に低い強い知性、忠実性、知覚品質を実現する。
論文 参考訳(メタデータ) (2025-09-18T11:24:47Z) - AudioTurbo: Fast Text-to-Audio Generation with Rectified Diffusion [23.250409921931492]
整流流は直線常微分方程式経路を学習することにより推論速度を向上させる。
このアプローチでは、フローマッチングモデルをスクラッチからトレーニングする必要があります。
本稿では,事前学習したTTAモデルにより生成された定性雑音サンプルペアから一階ODEパスを学習するAudioTurboを提案する。
論文 参考訳(メタデータ) (2025-05-28T08:33:58Z) - Mean Flows for One-step Generative Modeling [64.4997821467102]
本稿では,一段階生成モデリングのための原理的かつ効果的なフレームワークを提案する。
ニューラルネットワークトレーニングのガイドには,平均速度と瞬時速度を適切に定義したアイデンティティが導出され,使用される。
提案手法はMeanFlowモデルと呼ばれ,自己完結型であり,事前学習,蒸留,カリキュラム学習は不要である。
論文 参考訳(メタデータ) (2025-05-19T17:59:42Z) - Fast constrained sampling in pre-trained diffusion models [80.99262780028015]
任意の制約下で高速で高品質な生成を可能にするアルゴリズムを提案する。
我々の手法は、最先端のトレーニングフリー推論手法に匹敵するか、超越した結果をもたらす。
論文 参考訳(メタデータ) (2024-10-24T14:52:38Z) - Improving Consistency Models with Generator-Augmented Flows [16.049476783301724]
一貫性モデルは、ニューラルネットワークの単一前方通過におけるスコアベース拡散の多段階サンプリングを模倣する。
それらは、一貫性の蒸留と一貫性のトレーニングの2つの方法を学ぶことができる。
本稿では,一貫性モデルから得られたノイズデータを対応する出力へ転送する新しい流れを提案する。
論文 参考訳(メタデータ) (2024-06-13T20:22:38Z) - Guided Flows for Generative Modeling and Decision Making [55.42634941614435]
その結果,ガイドフローは条件付き画像生成やゼロショット音声合成におけるサンプル品質を著しく向上させることがわかった。
特に、我々は、拡散モデルと比較して、オフライン強化学習設定axスピードアップにおいて、まず、計画生成にフローモデルを適用する。
論文 参考訳(メタデータ) (2023-11-22T15:07:59Z) - Boosting Fast and High-Quality Speech Synthesis with Linear Diffusion [85.54515118077825]
本稿では, 常微分方程式に基づく線形拡散モデル(LinDiff)を提案する。
計算複雑性を低減するため、LinDiffでは、入力信号を小さなパッチに分割するパッチベースの処理アプローチを採用している。
我々のモデルは、より高速な合成速度で自己回帰モデルに匹敵する品質の音声を合成することができる。
論文 参考訳(メタデータ) (2023-06-09T07:02:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。