論文の概要: Zero-shot Voice Conversion via Self-supervised Prosody Representation
Learning
- arxiv url: http://arxiv.org/abs/2110.14422v1
- Date: Wed, 27 Oct 2021 13:26:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-28 20:27:45.373438
- Title: Zero-shot Voice Conversion via Self-supervised Prosody Representation
Learning
- Title(参考訳): 自己教師付き韻律表現学習によるゼロショット音声変換
- Authors: Shijun Wang, Dimche Kostadinov, Damian Borth
- Abstract要約: 目に見えない話者のためのVoice Conversion(VC、ゼロショットVC)は、実際のユースケースシナリオで有用であることから、魅力的なトピックである。
本稿では,韻律の特徴を効果的に学習するための新しい自己教師型アプローチを提案する。
最先端のゼロショットVCモデルと比較して性能が向上した。
- 参考スコア(独自算出の注目度): 1.9659095632676094
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Voice Conversion (VC) for unseen speakers, also known as zero-shot VC, is an
attractive topic due to its usefulness in real use-case scenarios. Recent work
in this area made progress with disentanglement methods that separate utterance
content and speaker characteristics. Although crucial, extracting disentangled
prosody characteristics for unseen speakers remains an open issue. In this
paper, we propose a novel self-supervised approach to effectively learn the
prosody characteristics. Then, we use the learned prosodic representations to
train our VC model for zero-shot conversion. Our evaluation demonstrates that
we can efficiently extract disentangled prosody representation. Moreover, we
show improved performance compared to the state-of-the-art zero-shot VC models.
- Abstract(参考訳): 目に見えない話者のためのVoice Conversion(VC、ゼロショットVC)は、実際のユースケースシナリオで有用であることから、魅力的なトピックである。
この分野での最近の研究は、発話内容と話者特性を分離する分節法によって進展した。
重要ではあるが、未知話者に対する不連続な韻律的特徴の抽出は未解決の問題である。
本稿では,プロソディ特性を効果的に学習するための新しい自己教師付きアプローチを提案する。
そして、学習した韻律表現を用いて、ゼロショット変換のためにVCモデルをトレーニングします。
評価の結果,不規則な韻律表現を効率的に抽出できることが示される。
また,最先端のゼロショットVCモデルと比較して性能が向上した。
関連論文リスト
- SKQVC: One-Shot Voice Conversion by K-Means Quantization with Self-Supervised Speech Representations [12.423959479216895]
ワンショット音声変換(ワンショット音声変換、英: One-shot Voice conversion、VC)は、単一の話者発話のみを用いて、任意の2つの話者間の変換を可能にする方法である。
K平均量子化(KQ)と自己教師付き学習(SSL)機能を利用した最近の研究は、音声からコンテンツ情報をキャプチャできることを示した。
本稿では,SSLの特徴と音声属性を利用した,シンプルで効果的なワンショットVCモデルを提案する。
論文 参考訳(メタデータ) (2024-11-25T07:14:26Z) - Takin-VC: Zero-shot Voice Conversion via Jointly Hybrid Content and Memory-Augmented Context-Aware Timbre Modeling [14.98368067290024]
Takin-VCは、新しいゼロショットVCフレームワークである。
実験結果から,Takin-VC法は最先端のゼロショットVCシステムを上回ることがわかった。
論文 参考訳(メタデータ) (2024-10-02T09:07:33Z) - Language-Driven Visual Consensus for Zero-Shot Semantic Segmentation [114.72734384299476]
本稿では,言語駆動型ビジュアルコンセンサス(LDVC)アプローチを提案する。
クラス埋め込みを、その離散的で抽象的な性質からアンカーとして活用し、クラス埋め込みに向けて視覚的特徴を操る。
我々の手法は、目に見えないクラスに対するセグメンテーションモデルの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-13T11:23:55Z) - Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - A unified one-shot prosody and speaker conversion system with
self-supervised discrete speech units [94.64927912924087]
既存のシステムは韻律と言語内容の相関を無視し、変換された音声の自然度を低下させる。
自己教師付き離散音声単位を言語表現として活用するカスケードモジュラーシステムを提案する。
実験により,本システムは,自然性,知性,話者伝達性,韻律伝達性において,従来の手法よりも優れていたことがわかった。
論文 参考訳(メタデータ) (2022-11-12T00:54:09Z) - Towards Disentangled Speech Representations [65.7834494783044]
本研究では, ASR と TTS の合同モデリングに基づく表現学習タスクを構築する。
本研究は,その部分の音声信号と,その部分の音声信号とをアンタングルする音声表現を学習することを目的とする。
我々は,これらの特性をトレーニング中に強化することにより,WERを平均24.5%向上させることを示す。
論文 参考訳(メタデータ) (2022-08-28T10:03:55Z) - Speech Representation Disentanglement with Adversarial Mutual
Information Learning for One-shot Voice Conversion [42.43123253495082]
単一の話者の発話しか参照できないワンショット音声変換(VC)がホットな研究トピックとなっている。
我々は、ピッチとコンテントエンコーダのランダムな再サンプリングを採用し、音声成分をアンタングルにするために、相互情報の差分対数比上限を用いる。
VCTKデータセットの実験では、自然性とインテリジェンスの観点から、ワンショットVCの最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-08-18T10:36:27Z) - Robust Disentangled Variational Speech Representation Learning for
Zero-shot Voice Conversion [34.139871476234205]
自己教師付き不協和音声表現学習の新たな視点からゼロショット音声変換について検討する。
任意の話者埋め込みとコンテンツ埋め込みとを逐次変分オートエンコーダ(VAE)デコーダに供給してゼロショット音声変換を行う。
TIMIT と VCTK のデータセットでは,話者の埋め込みとコンテンツ埋め込みに関する話者検証 (SV) と主観的評価,すなわち音声の自然性や類似性を両立させ,ノイズのある音源/ターゲット発話においても頑健である。
論文 参考訳(メタデータ) (2022-03-30T23:03:19Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Voicy: Zero-Shot Non-Parallel Voice Conversion in Noisy Reverberant
Environments [76.98764900754111]
音声変換(Voice Conversion, VC)は, 音源発話の非言語情報を変換し, 話者の同一性を変化させることを目的とした技術である。
我々は、特に騒々しいスピーチに適した新しいVCフレームワークであるVoicyを提案する。
自動エンコーダフレームワークにインスパイアされた本手法は,4つのエンコーダ(スピーカ,コンテンツ,音声,音響-ASR)と1つのデコーダから構成される。
論文 参考訳(メタデータ) (2021-06-16T15:47:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。