論文の概要: FasterVoiceGrad: Faster One-step Diffusion-Based Voice Conversion with Adversarial Diffusion Conversion Distillation
- arxiv url: http://arxiv.org/abs/2508.17868v1
- Date: Mon, 25 Aug 2025 10:23:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.727958
- Title: FasterVoiceGrad: Faster One-step Diffusion-Based Voice Conversion with Adversarial Diffusion Conversion Distillation
- Title(参考訳): FasterVoiceGrad: 対向拡散変換蒸留を用いた1段階拡散に基づく音声変換
- Authors: Takuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka, Yuto Kondo,
- Abstract要約: 拡散型音声変換モデル(VC)モデル(例えばVoiceGrad)は高い音声品質と話者類似性を達成できる。
FastVoiceGradは、VoiceGradを1ステップの拡散モデルに蒸留することで、この制限を克服する。
話者のアイデンティティとコンテントをアンタングルするためには、計算集約的なコンテントエンコーダが必要であるため、変換が遅くなる。
- 参考スコア(独自算出の注目度): 42.55959060773461
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A diffusion-based voice conversion (VC) model (e.g., VoiceGrad) can achieve high speech quality and speaker similarity; however, its conversion process is slow owing to iterative sampling. FastVoiceGrad overcomes this limitation by distilling VoiceGrad into a one-step diffusion model. However, it still requires a computationally intensive content encoder to disentangle the speaker's identity and content, which slows conversion. Therefore, we propose FasterVoiceGrad, a novel one-step diffusion-based VC model obtained by simultaneously distilling a diffusion model and content encoder using adversarial diffusion conversion distillation (ADCD), where distillation is performed in the conversion process while leveraging adversarial and score distillation training. Experimental evaluations of one-shot VC demonstrated that FasterVoiceGrad achieves competitive VC performance compared to FastVoiceGrad, with 6.6-6.9 and 1.8 times faster speed on a GPU and CPU, respectively.
- Abstract(参考訳): 拡散型音声変換(VC)モデル(例えば、VoiceGrad)は、高い音声品質と話者類似性を達成できるが、反復サンプリングにより変換過程が遅い。
FastVoiceGradは、VoiceGradを1ステップの拡散モデルに蒸留することで、この制限を克服する。
しかし、話者のアイデンティティとコンテンツをアンタングルするためには、計算集約的なコンテントエンコーダが必要であるため、変換が遅くなる。
そこで本稿では, 逆拡散変換蒸留(ADCD)を用いて拡散モデルとコンテントエンコーダを同時に蒸留し, 変換過程において, 逆拡散およびスコア蒸留の訓練を生かして蒸留を行う新しい1ステップ拡散ベースVCモデルであるFasterVoiceGradを提案する。
ワンショットVCの実験的評価によると、FastVoiceGradはGPUとCPUでそれぞれ6.6-6.9と1.8倍の速度で、FastVoiceGradと比較して、競争力のあるVC性能を実現している。
関連論文リスト
- FastVoiceGrad: One-step Diffusion-Based Voice Conversion with Adversarial Conditional Diffusion Distillation [28.847324588324152]
我々はFastVoiceGradを提案する。FastVoiceGradは1ステップの拡散型VCで、数十から1までのイテレーション数を削減します。
FastVoiceGradは、推論速度を向上しながら、従来の多段階拡散ベースVCに匹敵する、あるいは同等の能力を発揮する。
論文 参考訳(メタデータ) (2024-09-03T19:19:48Z) - Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。
本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。
実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-06-01T06:40:22Z) - CoMoSVC: Consistency Model-based Singing Voice Conversion [40.08004069518143]
一貫性モデルに基づく歌声変換法であるCoMoSVCを提案する。
CoMoSVCは、高品質な生成と高速サンプリングの両方を達成することを目指している。
1つのNVIDIA GTX4090 GPUの実験では、CoMoSVCは最先端(SOTA)拡散ベースのSVCシステムよりもはるかに高速な推論速度を示している。
論文 参考訳(メタデータ) (2024-01-03T15:47:17Z) - Faster Diffusion: Rethinking the Role of the Encoder for Diffusion Model Inference [95.42299246592756]
本稿では,UNetエンコーダについて検討し,エンコーダの特徴を実証的に分析する。
エンコーダの特徴は最小限に変化するが,デコーダの特徴は時間段階によって大きく異なる。
我々は、テキスト・ツー・ビデオ、パーソナライズド・ジェネレーション、参照誘導ジェネレーションといった他のタスクに対するアプローチを検証する。
論文 参考訳(メタデータ) (2023-12-15T08:46:43Z) - CoMoSpeech: One-Step Speech and Singing Voice Synthesis via Consistency
Model [41.21042900853639]
本研究では,単一拡散サンプリングステップによる音声合成を実現する"Co"sistency "Mo"del-based "Speech"合成法,"CoMoSpeech"を提案する。
単一のサンプリングステップで音声録音を生成することで、CoMoSpeechはリアルタイムよりも150倍以上高速な推論速度を実現する。
論文 参考訳(メタデータ) (2023-05-11T15:51:46Z) - DiffSVC: A Diffusion Probabilistic Model for Singing Voice Conversion [51.83469048737548]
本稿では拡散確率モデルに基づくSVCシステムであるDiffSVCを提案する。
DiffSVCでは、破壊されたメルスペクトログラムとその対応するステップ情報を入力として、付加されたガウスノイズを予測するデノナイジングモジュールを訓練する。
実験により、DiffSVCは、現在の最先端SVCアプローチと自然性および音声類似性の観点から、優れた変換性能が得られることが示された。
論文 参考訳(メタデータ) (2021-05-28T14:26:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。