論文の概要: SKQVC: One-Shot Voice Conversion by K-Means Quantization with Self-Supervised Speech Representations
- arxiv url: http://arxiv.org/abs/2411.16147v1
- Date: Mon, 25 Nov 2024 07:14:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:18:41.733929
- Title: SKQVC: One-Shot Voice Conversion by K-Means Quantization with Self-Supervised Speech Representations
- Title(参考訳): SKQVC: 自己教師付き音声表現を用いたK平均量子化によるワンショット音声変換
- Authors: Youngjun Sim, Jinsung Yoon, Young-Joo Suh,
- Abstract要約: ワンショット音声変換(ワンショット音声変換、英: One-shot Voice conversion、VC)は、単一の話者発話のみを用いて、任意の2つの話者間の変換を可能にする方法である。
K平均量子化(KQ)と自己教師付き学習(SSL)機能を利用した最近の研究は、音声からコンテンツ情報をキャプチャできることを示した。
本稿では,SSLの特徴と音声属性を利用した,シンプルで効果的なワンショットVCモデルを提案する。
- 参考スコア(独自算出の注目度): 12.423959479216895
- License:
- Abstract: One-shot voice conversion (VC) is a method that enables the transformation between any two speakers using only a single target speaker utterance. Existing methods often rely on complex architectures and pre-trained speaker verification (SV) models to improve the fidelity of converted speech. Recent works utilizing K-means quantization (KQ) with self-supervised learning (SSL) features have proven capable of capturing content information from speech. However, they often struggle to preserve speaking variation, such as prosodic detail and phonetic variation, particularly with smaller codebooks. In this work, we propose a simple yet effective one-shot VC model that utilizes the characteristics of SSL features and speech attributes. Our approach addresses the issue of losing speaking variation, enabling high-fidelity voice conversion trained with only reconstruction losses, without requiring external speaker embeddings. We demonstrate the performance of our model across 6 evaluation metrics, with results highlighting the benefits of the speaking variation compensation method.
- Abstract(参考訳): ワンショット音声変換(ワンショット音声変換、英: One-shot Voice conversion、VC)は、単一の話者発話のみを用いて、任意の2つの話者間の変換を可能にする方法である。
既存の手法はしばしば、変換された音声の忠実度を改善するために複雑なアーキテクチャと事前訓練された話者検証(SV)モデルに依存している。
K平均量子化(KQ)と自己教師付き学習(SSL)機能を利用した最近の研究は、音声からコンテンツ情報をキャプチャできることを示した。
しかし、彼らは特により小さなコードブックで、韻律的な詳細や音韻的な変化のような話のバリエーションを維持するのに苦労することが多い。
本研究では,SSLの特徴と音声属性を利用した,シンプルで効果的なワンショットVCモデルを提案する。
提案手法では, 話者埋め込みを必要とせず, 高忠実度音声変換を再現損失のみで訓練することが可能となる。
本研究では,6つの評価指標にまたがってモデルの性能を実証し,発話変動補償法の利点を浮き彫りにした。
関連論文リスト
- Multi-modal Adversarial Training for Zero-Shot Voice Cloning [9.823246184635103]
実音声特徴と生成音声特徴を条件付きで識別するトランスフォーマーエンコーダデコーダアーキテクチャを提案する。
我々は、FastSpeech2音響モデルに適用し、大規模マルチスピーカーデータセットであるLibriheavyのトレーニングを行うことにより、新しい対角訓練手法を導入する。
本モデルは,音声品質と話者類似度の観点から,ベースラインに対する改善を実現する。
論文 参考訳(メタデータ) (2024-08-28T16:30:41Z) - SelfVC: Voice Conversion With Iterative Refinement using Self Transformations [42.97689861071184]
SelfVCは、自己合成例で音声変換モデルを改善するためのトレーニング戦略である。
本研究では,音声信号とSSL表現から韻律情報を導出する手法を開発し,合成モデルにおける予測サブモジュールの訓練を行う。
我々のフレームワークはテキストを使わずに訓練され、音声の自然性、話者の類似性、合成音声のインテリジェンス性を評価するため、ゼロショット音声変換を実現する。
論文 参考訳(メタデータ) (2023-10-14T19:51:17Z) - Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - Self-supervised Fine-tuning for Improved Content Representations by
Speaker-invariant Clustering [78.2927924732142]
話者不変クラスタリング(Spin)を自己教師付き学習手法として提案する。
Spinは、単一のGPU上で45分間の微調整で、スピーカー情報を切り離し、コンテンツ表現を保存する。
論文 参考訳(メタデータ) (2023-05-18T15:59:36Z) - Adversarial Speaker Disentanglement Using Unannotated External Data for
Self-supervised Representation Based Voice Conversion [35.23123094710891]
SSL表現を入力した高相似性ノン・ワン音声変換法を提案する。
実験の結果,本手法は教師付き手法と同等の類似性と自然性が得られることがわかった。
論文 参考訳(メタデータ) (2023-05-16T04:52:29Z) - A unified one-shot prosody and speaker conversion system with
self-supervised discrete speech units [94.64927912924087]
既存のシステムは韻律と言語内容の相関を無視し、変換された音声の自然度を低下させる。
自己教師付き離散音声単位を言語表現として活用するカスケードモジュラーシステムを提案する。
実験により,本システムは,自然性,知性,話者伝達性,韻律伝達性において,従来の手法よりも優れていたことがわかった。
論文 参考訳(メタデータ) (2022-11-12T00:54:09Z) - Training Robust Zero-Shot Voice Conversion Models with Self-supervised
Features [24.182732872327183]
Unsampling Zero-Shot Voice Conversion (VC) は、発話の話者特性を未確認のターゲット話者に合わせるように修正することを目的としている。
長さ再構成デコーダを用いて高品質なオーディオサンプルを作成可能であることを示す。
論文 参考訳(メタデータ) (2021-12-08T17:27:39Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Learning Explicit Prosody Models and Deep Speaker Embeddings for
Atypical Voice Conversion [60.808838088376675]
本稿では,明示的な韻律モデルと深層話者埋め込み学習を用いたVCシステムを提案する。
韻律補正器は音素埋め込みを取り入れ、典型的な音素持続時間とピッチ値を推定する。
変換モデルは、音素埋め込みと典型的な韻律特徴を入力として、変換された音声を生成する。
論文 参考訳(メタデータ) (2020-11-03T13:08:53Z) - Many-to-Many Voice Transformer Network [55.17770019619078]
本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。
これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
論文 参考訳(メタデータ) (2020-05-18T04:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。