論文の概要: Speech Representation Disentanglement with Adversarial Mutual
Information Learning for One-shot Voice Conversion
- arxiv url: http://arxiv.org/abs/2208.08757v1
- Date: Thu, 18 Aug 2022 10:36:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-19 14:19:00.402738
- Title: Speech Representation Disentanglement with Adversarial Mutual
Information Learning for One-shot Voice Conversion
- Title(参考訳): 対向的相互情報学習を用いたワンショット音声変換のための音声表現のアンタングル化
- Authors: SiCheng Yang, Methawee Tantrawenith, Haolin Zhuang, Zhiyong Wu, Aolan
Sun, Jianzong Wang, ning cheng, Huaizhen Tang, Xintao Zhao, Jie Wang and
Helen Meng
- Abstract要約: 単一の話者の発話しか参照できないワンショット音声変換(VC)がホットな研究トピックとなっている。
我々は、ピッチとコンテントエンコーダのランダムな再サンプリングを採用し、音声成分をアンタングルにするために、相互情報の差分対数比上限を用いる。
VCTKデータセットの実験では、自然性とインテリジェンスの観点から、ワンショットVCの最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 42.43123253495082
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One-shot voice conversion (VC) with only a single target speaker's speech for
reference has become a hot research topic. Existing works generally disentangle
timbre, while information about pitch, rhythm and content is still mixed
together. To perform one-shot VC effectively with further disentangling these
speech components, we employ random resampling for pitch and content encoder
and use the variational contrastive log-ratio upper bound of mutual information
and gradient reversal layer based adversarial mutual information learning to
ensure the different parts of the latent space containing only the desired
disentangled representation during training. Experiments on the VCTK dataset
show the model achieves state-of-the-art performance for one-shot VC in terms
of naturalness and intellgibility. In addition, we can transfer characteristics
of one-shot VC on timbre, pitch and rhythm separately by speech representation
disentanglement. Our code, pre-trained models and demo are available at
https://im1eon.github.io/IS2022-SRDVC/.
- Abstract(参考訳): 単一話者の音声のみを基準としたワンショット音声変換(vc)がホットな研究テーマとなっている。
既存の作品では音色が異なっており、ピッチ、リズム、内容などに関する情報が混ざり合っている。
本稿では,これらの音声成分をさらに切り離してワンショットVCを効果的に行うために,ピッチとコンテントエンコーダをランダムにサンプリングし,相互情報の相互情報と勾配反転層に基づく対向的相互情報学習を用いて,学習中に所望の非絡み合い表現のみを含む潜時空間の異なる部分を保証する。
VCTKデータセットの実験では、自然性とインテリジェンスの観点から、ワンショットVCの最先端のパフォーマンスを実現している。
さらに, 音色, ピッチ, リズムの1ショットVCの特性を, 音声表現のゆがみによって別々に伝達することができる。
私たちのコード、事前トレーニングされたモデル、デモはhttps://im1eon.github.io/is2022-srdvc/で利用可能です。
関連論文リスト
- Takin-VC: Zero-shot Voice Conversion via Jointly Hybrid Content and Memory-Augmented Context-Aware Timbre Modeling [14.98368067290024]
Takin-VCは、新しいゼロショットVCフレームワークである。
実験結果から,Takin-VC法は最先端のゼロショットVCシステムを上回ることがわかった。
論文 参考訳(メタデータ) (2024-10-02T09:07:33Z) - VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。
本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-11T12:24:23Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Speaking Style Conversion in the Waveform Domain Using Discrete
Self-Supervised Units [27.619740864818453]
録音のリズム, ピッチの輪郭, 音色を, 無音でターゲット話者に変換する新しい軽量な手法であるdisSCを紹介する。
提案手法は、事前訓練された自己教師型モデルを用いて、音声を離散単位に符号化する。
論文 参考訳(メタデータ) (2022-12-19T18:53:04Z) - Robust Disentangled Variational Speech Representation Learning for
Zero-shot Voice Conversion [34.139871476234205]
自己教師付き不協和音声表現学習の新たな視点からゼロショット音声変換について検討する。
任意の話者埋め込みとコンテンツ埋め込みとを逐次変分オートエンコーダ(VAE)デコーダに供給してゼロショット音声変換を行う。
TIMIT と VCTK のデータセットでは,話者の埋め込みとコンテンツ埋め込みに関する話者検証 (SV) と主観的評価,すなわち音声の自然性や類似性を両立させ,ノイズのある音源/ターゲット発話においても頑健である。
論文 参考訳(メタデータ) (2022-03-30T23:03:19Z) - Training Robust Zero-Shot Voice Conversion Models with Self-supervised
Features [24.182732872327183]
Unsampling Zero-Shot Voice Conversion (VC) は、発話の話者特性を未確認のターゲット話者に合わせるように修正することを目的としている。
長さ再構成デコーダを用いて高品質なオーディオサンプルを作成可能であることを示す。
論文 参考訳(メタデータ) (2021-12-08T17:27:39Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Voicy: Zero-Shot Non-Parallel Voice Conversion in Noisy Reverberant
Environments [76.98764900754111]
音声変換(Voice Conversion, VC)は, 音源発話の非言語情報を変換し, 話者の同一性を変化させることを目的とした技術である。
我々は、特に騒々しいスピーチに適した新しいVCフレームワークであるVoicyを提案する。
自動エンコーダフレームワークにインスパイアされた本手法は,4つのエンコーダ(スピーカ,コンテンツ,音声,音響-ASR)と1つのデコーダから構成される。
論文 参考訳(メタデータ) (2021-06-16T15:47:06Z) - Many-to-Many Voice Transformer Network [55.17770019619078]
本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。
これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
論文 参考訳(メタデータ) (2020-05-18T04:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。