論文の概要: QR-VC: Leveraging Quantization Residuals for Linear Disentanglement in Zero-Shot Voice Conversion
- arxiv url: http://arxiv.org/abs/2411.16147v2
- Date: Wed, 10 Sep 2025 13:42:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:51.960694
- Title: QR-VC: Leveraging Quantization Residuals for Linear Disentanglement in Zero-Shot Voice Conversion
- Title(参考訳): QR-VC:ゼロショット音声変換における線形歪みの量子化残差の活用
- Authors: Youngjun Sim, Jinsung Yoon, Wooyeol Jeong, Young-Joo Suh,
- Abstract要約: ゼロショット音声変換(ゼロショット音声変換、Zero-shot Voice conversion)は、入力音声の話者アイデンティティを、1つの参照発話のみを使用してターゲット話者にマッチさせる技術である。
近年、K平均量子化による自己教師付き学習機能を活用し、高品質なコンテンツ表現を抽出している。
音声成分の時間的特性を利用して量子化残差を完全に活用する新しい手法を提案する。
- 参考スコア(独自算出の注目度): 10.376226860586351
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot voice conversion is a technique that alters the speaker identity of an input speech to match a target speaker using only a single reference utterance, without requiring additional training. Recent approaches extensively utilize self-supervised learning features with K-means quantization to extract high-quality content representations while removing speaker identity. However, this quantization process also eliminates fine-grained phonetic and prosodic variations, degrading intelligibility and prosody preservation. While prior works have primarily focused on quantized representations, quantization residuals remain underutilized and deserve further exploration. In this paper, we introduce a novel approach that fully utilizes quantization residuals by leveraging temporal properties of speech components. This facilitates the disentanglement of speaker identity and the recovery of phonetic and prosodic details lost during quantization. By applying only K-means quantization and linear projections, our method achieves simple yet effective disentanglement, without requiring complex architectures or explicit supervision. This allows for high-fidelity voice conversion trained solely with reconstruction losses. Experiments show that the proposed model outperforms existing methods across both subjective and objective metrics. It achieves superior intelligibility and speaker similarity, along with improved prosody preservation, highlighting the impact of our Linear Disentangler module.
- Abstract(参考訳): ゼロショット音声変換(ゼロショット音声変換、Zero-shot Voice conversion)は、入力音声の話者アイデンティティを、追加の訓練を必要とせず、単一の基準発話のみを用いてターゲット話者にマッチさせる技術である。
近年,K平均量子化による自己教師付き学習機能を活用し,話者識別を除去しながら高品質なコンテンツ表現を抽出する手法が提案されている。
しかし、この量子化プロセスは、きめ細かい音素や韻律のバリエーションを排除し、知性や韻律の保存を低下させる。
以前の研究は主に量子化表現に焦点を当てていたが、量子化残基は未利用のままであり、さらなる探索に値する。
本稿では,音声成分の時間的特性を活用することによって,量子化残差を完全に活用する新しい手法を提案する。
これにより、話者識別のアンタングル化と、量子化時に失われる音声的・韻律的詳細の回復が促進される。
K-平均量子化と線形射影のみを適用することで、複雑なアーキテクチャや明示的な監督を必要とせず、単純かつ効果的に絡み合うことができる。
これにより、再建損失のみで訓練された高忠実度音声変換が可能になる。
実験の結果,提案手法は主観的指標と客観的指標の両方において既存手法よりも優れていた。
より優れたインテリジェンス性と話者類似性、および韻律保存の改善を実現し、線形ディスタングルモジュールの影響を強調します。
関連論文リスト
- Multi-modal Adversarial Training for Zero-Shot Voice Cloning [9.823246184635103]
実音声特徴と生成音声特徴を条件付きで識別するトランスフォーマーエンコーダデコーダアーキテクチャを提案する。
我々は、FastSpeech2音響モデルに適用し、大規模マルチスピーカーデータセットであるLibriheavyのトレーニングを行うことにより、新しい対角訓練手法を導入する。
本モデルは,音声品質と話者類似度の観点から,ベースラインに対する改善を実現する。
論文 参考訳(メタデータ) (2024-08-28T16:30:41Z) - SelfVC: Voice Conversion With Iterative Refinement using Self Transformations [42.97689861071184]
SelfVCは、自己合成例で音声変換モデルを改善するためのトレーニング戦略である。
本研究では,音声信号とSSL表現から韻律情報を導出する手法を開発し,合成モデルにおける予測サブモジュールの訓練を行う。
我々のフレームワークはテキストを使わずに訓練され、音声の自然性、話者の類似性、合成音声のインテリジェンス性を評価するため、ゼロショット音声変換を実現する。
論文 参考訳(メタデータ) (2023-10-14T19:51:17Z) - Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - Self-supervised Fine-tuning for Improved Content Representations by
Speaker-invariant Clustering [78.2927924732142]
話者不変クラスタリング(Spin)を自己教師付き学習手法として提案する。
Spinは、単一のGPU上で45分間の微調整で、スピーカー情報を切り離し、コンテンツ表現を保存する。
論文 参考訳(メタデータ) (2023-05-18T15:59:36Z) - Adversarial Speaker Disentanglement Using Unannotated External Data for
Self-supervised Representation Based Voice Conversion [35.23123094710891]
SSL表現を入力した高相似性ノン・ワン音声変換法を提案する。
実験の結果,本手法は教師付き手法と同等の類似性と自然性が得られることがわかった。
論文 参考訳(メタデータ) (2023-05-16T04:52:29Z) - A unified one-shot prosody and speaker conversion system with
self-supervised discrete speech units [94.64927912924087]
既存のシステムは韻律と言語内容の相関を無視し、変換された音声の自然度を低下させる。
自己教師付き離散音声単位を言語表現として活用するカスケードモジュラーシステムを提案する。
実験により,本システムは,自然性,知性,話者伝達性,韻律伝達性において,従来の手法よりも優れていたことがわかった。
論文 参考訳(メタデータ) (2022-11-12T00:54:09Z) - Training Robust Zero-Shot Voice Conversion Models with Self-supervised
Features [24.182732872327183]
Unsampling Zero-Shot Voice Conversion (VC) は、発話の話者特性を未確認のターゲット話者に合わせるように修正することを目的としている。
長さ再構成デコーダを用いて高品質なオーディオサンプルを作成可能であることを示す。
論文 参考訳(メタデータ) (2021-12-08T17:27:39Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Learning Explicit Prosody Models and Deep Speaker Embeddings for
Atypical Voice Conversion [60.808838088376675]
本稿では,明示的な韻律モデルと深層話者埋め込み学習を用いたVCシステムを提案する。
韻律補正器は音素埋め込みを取り入れ、典型的な音素持続時間とピッチ値を推定する。
変換モデルは、音素埋め込みと典型的な韻律特徴を入力として、変換された音声を生成する。
論文 参考訳(メタデータ) (2020-11-03T13:08:53Z) - Many-to-Many Voice Transformer Network [55.17770019619078]
本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。
これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
論文 参考訳(メタデータ) (2020-05-18T04:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。