論文の概要: Enhancing Zero-Shot Many to Many Voice Conversion with Self-Attention
VAE
- arxiv url: http://arxiv.org/abs/2203.16037v1
- Date: Wed, 30 Mar 2022 03:52:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-31 16:58:23.714879
- Title: Enhancing Zero-Shot Many to Many Voice Conversion with Self-Attention
VAE
- Title(参考訳): 自己注意VAEを用いたゼロショット多人数音声変換の実現
- Authors: Ziang Long, Yunling Zheng, Meng Yu, Jack Xin
- Abstract要約: 変分自動エンコーダ(VAE)は、音声の発声を話者識別と言語内容の潜伏埋め込みに分解する有効なニューラルネットワークアーキテクチャである。
本研究では,VAEのデコーダの適切な位置から,変換音声を生成する際に,非局所情報を組み込む自己アテンション層を付加した。
- 参考スコア(独自算出の注目度): 8.144263449781967
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Variational auto-encoder(VAE) is an effective neural network architecture to
disentangle a speech utterance into speaker identity and linguistic content
latent embeddings, then generate an utterance for a target speaker from that of
a source speaker. This is possible by concatenating the identity embedding of
the target speaker and the content embedding of the source speaker uttering a
desired sentence. In this work, we found a suitable location of VAE's decoder
to add a self-attention layer for incorporating non-local information in
generating a converted utterance and hiding the source speaker's identity. In
experiments of zero-shot many-to-many voice conversion task on VCTK data set,
the self-attention layer enhances speaker classification accuracy on unseen
speakers by 27\% while increasing the decoder parameter size by 12\%. The voice
quality of converted utterance degrades by merely 3\% measured by the MOSNet
scores. To reduce over-fitting and generalization error, we further applied a
relaxed group-wise splitting method in network training and achieved a gain of
speaker classification accuracy on unseen speakers by 46\% while maintaining
the conversion voice quality in terms of MOSNet scores. Our encouraging
findings point to future research on integrating more variety of attention
structures in VAE framework for advancing zero-shot many-to-many voice
conversions.
- Abstract(参考訳): 変分自動エンコーダ(VAE)は、発話を話者のアイデンティティと言語内容の埋め込みに切り離し、ターゲット話者に対する発話を元話者から生成する効果的なニューラルネットワークアーキテクチャである。
これは、ターゲット話者のアイデンティティ埋め込みと、所望の文を発するソース話者のコンテンツ埋め込みとを連結することにより可能となる。
本研究では,VAEのデコーダの適切な位置を,変換された発話を生成し,音源話者の身元を隠蔽するために,非局所情報を組み込む自己注意層を追加する。
VCTKデータセットにおけるゼロショット多対多音声変換タスクの実験において、自己認識層は、デコーダパラメーターのサイズを12\%増加させながら、見えない話者の話者分類精度を27\%向上させる。
変換された発話の音質は、MOSNetスコアで測定された3\%で劣化する。
オーバーフィッティングと一般化の誤りを減らすため、ネットワークトレーニングにおいて、リラックスしたグループ分割法を適用し、mosnetスコアの変換音声品質を維持しつつ、未認識話者の話者分類精度を46\%向上させた。
ゼロショット多対多音声変換の実現に向けたvaeフレームワークにおける,より多様な注意構造の統合に関する今後の研究を奨励する。
関連論文リスト
- Self-supervised Fine-tuning for Improved Content Representations by
Speaker-invariant Clustering [78.2927924732142]
話者不変クラスタリング(Spin)を自己教師付き学習手法として提案する。
Spinは、単一のGPU上で45分間の微調整で、スピーカー情報を切り離し、コンテンツ表現を保存する。
論文 参考訳(メタデータ) (2023-05-18T15:59:36Z) - ACE-VC: Adaptive and Controllable Voice Conversion using Explicitly
Disentangled Self-supervised Speech Representations [12.20522794248598]
自己教師付き学習で訓練された音声表現を用いたゼロショット音声変換法を提案する。
我々は,発話を言語内容,話者特性,発話スタイルなどの特徴に分解するマルチタスクモデルを開発した。
次に,その表現から音声信号を効果的に再構成できるピッチと時間予測器を備えた合成モデルを開発する。
論文 参考訳(メタデータ) (2023-02-16T08:10:41Z) - DeID-VC: Speaker De-identification via Zero-shot Pseudo Voice Conversion [0.0]
DeID-VCは、実際の話者を擬似話者に変換する話者識別システムである。
PSGの助けを借りて、DeID-VCは独自の擬似話者を話者レベルや発話レベルに割り当てることができる。
論文 参考訳(メタデータ) (2022-09-09T21:13:08Z) - Robust Disentangled Variational Speech Representation Learning for
Zero-shot Voice Conversion [34.139871476234205]
自己教師付き不協和音声表現学習の新たな視点からゼロショット音声変換について検討する。
任意の話者埋め込みとコンテンツ埋め込みとを逐次変分オートエンコーダ(VAE)デコーダに供給してゼロショット音声変換を行う。
TIMIT と VCTK のデータセットでは,話者の埋め込みとコンテンツ埋め込みに関する話者検証 (SV) と主観的評価,すなわち音声の自然性や類似性を両立させ,ノイズのある音源/ターゲット発話においても頑健である。
論文 参考訳(メタデータ) (2022-03-30T23:03:19Z) - Training Robust Zero-Shot Voice Conversion Models with Self-supervised
Features [24.182732872327183]
Unsampling Zero-Shot Voice Conversion (VC) は、発話の話者特性を未確認のターゲット話者に合わせるように修正することを目的としている。
長さ再構成デコーダを用いて高品質なオーディオサンプルを作成可能であることを示す。
論文 参考訳(メタデータ) (2021-12-08T17:27:39Z) - Many-to-Many Voice Conversion based Feature Disentanglement using
Variational Autoencoder [2.4975981795360847]
そこで本稿では,多くの音声変換に対処するために,特徴のゆがみに基づく新しい手法を提案する。
本手法は、話者のアイデンティティと言語内容とを発話から切り離す能力を有する。
多くのソーススピーカーから単一のオートエンコーダネットワークで多くのターゲットスピーカーに変換することができる。
論文 参考訳(メタデータ) (2021-07-11T13:31:16Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - FragmentVC: Any-to-Any Voice Conversion by End-to-End Extracting and
Fusing Fine-Grained Voice Fragments With Attention [66.77490220410249]
本稿では、Wav2Vec 2.0から、音源話者からの発声の潜在音声構造を求めるFragmentVCを提案する。
FragmentVCは、ターゲット話者発話からきめ細かい音声断片を抽出し、所望の発話に融合することができる。
提案手法は, コンテンツと話者情報との絡み合いを考慮せずに, 再構成損失を学習する。
論文 参考訳(メタデータ) (2020-10-27T09:21:03Z) - VQVC+: One-Shot Voice Conversion by Vector Quantization and U-Net
architecture [71.45920122349628]
自動エンコーダベースのVC手法は、話者のアイデンティティを付与することなく、入力音声中の話者とコンテンツをアンタングルする。
自動エンコーダベースのVCシステムでは,U-Netアーキテクチャを用いて音質を向上する。
論文 参考訳(メタデータ) (2020-06-07T14:01:16Z) - SpEx: Multi-Scale Time Domain Speaker Extraction Network [89.00319878262005]
話者抽出は、ターゲット話者の声を複数話者環境から抽出することで、人間の選択的な聴覚的注意を模倣することを目的としている。
周波数領域の抽出を行い、抽出した大きさと推定位相スペクトルから時間領域信号を再構成することが一般的である。
本研究では,混合音声を音声信号を大域・位相スペクトルに分解する代わりに,マルチスケールの埋め込み係数に変換する時間領域話者抽出ネットワーク(SpEx)を提案する。
論文 参考訳(メタデータ) (2020-04-17T16:13:06Z) - F0-consistent many-to-many non-parallel voice conversion via conditional
autoencoder [53.901873501494606]
自動エンコーダによる音声変換を改良し,コンテンツ,F0,話者識別を同時に行う。
我々はF0輪郭を制御でき、ターゲット話者と一致したF0音声を生成し、品質と類似性を大幅に向上させることができる。
論文 参考訳(メタデータ) (2020-04-15T22:00:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。