論文の概要: FragmentVC: Any-to-Any Voice Conversion by End-to-End Extracting and
Fusing Fine-Grained Voice Fragments With Attention
- arxiv url: http://arxiv.org/abs/2010.14150v2
- Date: Mon, 3 May 2021 16:05:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 12:59:56.501449
- Title: FragmentVC: Any-to-Any Voice Conversion by End-to-End Extracting and
Fusing Fine-Grained Voice Fragments With Attention
- Title(参考訳): FragmentVC: エンド・ツー・エンドの抽出とファイン・グラインド音声による音声変換
- Authors: Yist Y. Lin, Chung-Ming Chien, Jheng-Hao Lin, Hung-yi Lee, Lin-shan
Lee
- Abstract要約: 本稿では、Wav2Vec 2.0から、音源話者からの発声の潜在音声構造を求めるFragmentVCを提案する。
FragmentVCは、ターゲット話者発話からきめ細かい音声断片を抽出し、所望の発話に融合することができる。
提案手法は, コンテンツと話者情報との絡み合いを考慮せずに, 再構成損失を学習する。
- 参考スコア(独自算出の注目度): 66.77490220410249
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Any-to-any voice conversion aims to convert the voice from and to any
speakers even unseen during training, which is much more challenging compared
to one-to-one or many-to-many tasks, but much more attractive in real-world
scenarios. In this paper we proposed FragmentVC, in which the latent phonetic
structure of the utterance from the source speaker is obtained from Wav2Vec
2.0, while the spectral features of the utterance(s) from the target speaker
are obtained from log mel-spectrograms. By aligning the hidden structures of
the two different feature spaces with a two-stage training process, FragmentVC
is able to extract fine-grained voice fragments from the target speaker
utterance(s) and fuse them into the desired utterance, all based on the
attention mechanism of Transformer as verified with analysis on attention maps,
and is accomplished end-to-end. This approach is trained with reconstruction
loss only without any disentanglement considerations between content and
speaker information and doesn't require parallel data. Objective evaluation
based on speaker verification and subjective evaluation with MOS both showed
that this approach outperformed SOTA approaches, such as AdaIN-VC and AutoVC.
- Abstract(参考訳): あらゆる音声変換は、訓練中に見つからないあらゆる話者に音声を変換することを目的としており、これは1対1のタスクや多対多のタスクよりもはるかに難しいが、現実のシナリオではずっと魅力的である。
本稿では,wav2vec 2.0から音源話者からの発話の潜在音声構造を得るとともに,対象話者からの発話のスペクトル特徴をログメルスペクトログラムから求めるフラグメントvcを提案する。
2つの異なる特徴空間の隠れ構造を2段階の訓練プロセスと整合させることで、FragmentVCはターゲット話者発話からきめ細かな音声断片を抽出し、所望の発話に融合させることができる。
このアプローチは,コンテント情報と話者情報との絡み合いを考慮せず,並列データを必要としない再構成損失で訓練される。
MOS を用いた話者検証と主観評価に基づく客観的評価は,AdaIN-VC や AutoVC などの SOTA アプローチよりも優れていることを示した。
関連論文リスト
- Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Combining Automatic Speaker Verification and Prosody Analysis for
Synthetic Speech Detection [15.884911752869437]
本稿では,人間の声の2つの高レベルな意味的特性を組み合わせた合成音声検出手法を提案する。
一方, 話者識別手法に着目し, 自動話者検証タスクの最先端手法を用いて抽出した話者埋め込みとして表現する。
一方、リズム、ピッチ、アクセントの変化を意図した音声韻律は、特殊なエンコーダによって抽出される。
論文 参考訳(メタデータ) (2022-10-31T11:03:03Z) - VCSE: Time-Domain Visual-Contextual Speaker Extraction Network [54.67547526785552]
本稿では,VCSEという2段階の時間領域視覚コンテキスト話者抽出ネットワークを提案する。
第1段階では、視覚的手がかりで対象音声を事前抽出し、基礎となる音声系列を推定する。
第2段階では、事前抽出されたターゲット音声を自己学習した文脈的手がかりで洗練する。
論文 参考訳(メタデータ) (2022-10-09T12:29:38Z) - Robust Disentangled Variational Speech Representation Learning for
Zero-shot Voice Conversion [34.139871476234205]
自己教師付き不協和音声表現学習の新たな視点からゼロショット音声変換について検討する。
任意の話者埋め込みとコンテンツ埋め込みとを逐次変分オートエンコーダ(VAE)デコーダに供給してゼロショット音声変換を行う。
TIMIT と VCTK のデータセットでは,話者の埋め込みとコンテンツ埋め込みに関する話者検証 (SV) と主観的評価,すなわち音声の自然性や類似性を両立させ,ノイズのある音源/ターゲット発話においても頑健である。
論文 参考訳(メタデータ) (2022-03-30T23:03:19Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Audio-visual Speech Separation with Adversarially Disentangled Visual
Representation [23.38624506211003]
音声分離は、複数の同時話者による音声の混合から個々の音声を分離することを目的としている。
本モデルでは,顔検出器を用いて現場の話者数を検出し,視覚情報を用いて順列化問題を回避する。
提案モデルは,最先端のオーディオのみのモデルと3つのオーディオ視覚モデルより優れていることを示す。
論文 参考訳(メタデータ) (2020-11-29T10:48:42Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Many-to-Many Voice Transformer Network [55.17770019619078]
本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。
これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
論文 参考訳(メタデータ) (2020-05-18T04:02:08Z) - Weakly Supervised Training of Hierarchical Attention Networks for
Speaker Identification [37.33388614967888]
弱ラベル付き話者識別問題を解くために階層的注意ネットワークを提案する。
フレームレベルエンコーダとセグメントレベルエンコーダで構成される階層構造を用いることで,話者関連情報をローカルかつグローバルに学習することを目指している。
論文 参考訳(メタデータ) (2020-05-15T22:57:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。