論文の概要: Assem-VC: Realistic Voice Conversion by Assembling Modern Speech
Synthesis Techniques
- arxiv url: http://arxiv.org/abs/2104.00931v1
- Date: Fri, 2 Apr 2021 08:18:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-05 13:38:41.825837
- Title: Assem-VC: Realistic Voice Conversion by Assembling Modern Speech
Synthesis Techniques
- Title(参考訳): Assem-VC:現代音声合成技術による実声変換
- Authors: Kang-wook Kim, Seung-won Park and Myun-chul Joe
- Abstract要約: 本稿では,非並列音声変換システムAssem-VCを提案する。
本稿では、VCにおけるGTA微調整についても紹介し、出力の品質と話者類似性を大幅に改善する。
- 参考スコア(独自算出の注目度): 3.3946853660795893
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we pose the current state-of-the-art voice conversion (VC)
systems as two-encoder-one-decoder models. After comparing these models, we
combine the best features and propose Assem-VC, a new state-of-the-art
any-to-many non-parallel VC system. This paper also introduces the GTA
finetuning in VC, which significantly improves the quality and the speaker
similarity of the outputs. Assem-VC outperforms the previous state-of-the-art
approaches in both the naturalness and the speaker similarity on the VCTK
dataset. As an objective result, the degree of speaker disentanglement of
features such as phonetic posteriorgrams (PPG) is also explored. Our
investigation indicates that many-to-many VC results are no longer distinct
from human speech and similar quality can be achieved with any-to-many models.
Audio samples are available at https://mindslab-ai.github.io/assem-vc/
- Abstract(参考訳): 本稿では,現状の音声変換(vc)システムを2つのエンコーダ・ワンデコーダモデルとして提案する。
これらのモデルを比較した後、最高の機能を組み合わせてAssem-VCを提案します。
本稿では、VCにおけるGTA微調整についても紹介し、出力の品質と話者類似性を大幅に改善する。
Assem-VCは、VCTKデータセットの自然性と話者類似性の両方において、従来の最先端アプローチよりも優れている。
目的として,音声後頭部図 (PPG) などの特徴の話者分離度についても検討した。
我々の調査は、多くのVCの成果がもはや人間のスピーチと区別されず、どんなモデルでも同様の品質が達成できることを示している。
オーディオサンプルはhttps://mindslab-ai.github.io/assem-vc/で入手できる。
関連論文リスト
- AV-data2vec: Self-supervised Learning of Audio-Visual Speech
Representations with Contextualized Target Representations [88.30635799280923]
AV-data2vecを導入し、文脈化表現の予測に基づいて音声・視覚表現を構築する。
LRS3の結果は、AV-data2vecが、同じ量のデータとモデルサイズで既存のメソッドを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-10T02:55:52Z) - HiFi-VC: High Quality ASR-Based Voice Conversion [0.0]
音声変換パイプラインを新たに提案する。
提案手法では,音声認識機能,ピッチ追跡,最先端波形予測モデルを用いる。
論文 参考訳(メタデータ) (2022-03-31T10:45:32Z) - VCVTS: Multi-speaker Video-to-Speech synthesis via cross-modal knowledge
transfer from voice conversion [77.50171525265056]
本稿では,音声変換(VC)からのクロスモーダルな知識伝達に基づく,VTS(Multi-Speaker Video-to-Speech)システムを提案する。
Lip2Indネットワークは、VCのコンテンツエンコーダを交換してマルチスピーカVTSシステムを形成し、サイレントビデオを音響ユニットに変換して正確な音声コンテンツを再構成する。
論文 参考訳(メタデータ) (2022-02-18T08:58:45Z) - StarGANv2-VC: A Diverse, Unsupervised, Non-parallel Framework for
Natural-Sounding Voice Conversion [19.74933410443264]
本稿では, StarGAN v2 と呼ばれるGAN (Generative Adversarial Network) を用いた教師なし多人数音声変換手法を提案する。
私たちのモデルは20人の英語話者でしか訓練されていません。
音声変換タスク、例えば、非対人、言語横断、歌唱などのタスクに一般化する。
論文 参考訳(メタデータ) (2021-07-21T23:44:17Z) - Voicy: Zero-Shot Non-Parallel Voice Conversion in Noisy Reverberant
Environments [76.98764900754111]
音声変換(Voice Conversion, VC)は, 音源発話の非言語情報を変換し, 話者の同一性を変化させることを目的とした技術である。
我々は、特に騒々しいスピーチに適した新しいVCフレームワークであるVoicyを提案する。
自動エンコーダフレームワークにインスパイアされた本手法は,4つのエンコーダ(スピーカ,コンテンツ,音声,音響-ASR)と1つのデコーダから構成される。
論文 参考訳(メタデータ) (2021-06-16T15:47:06Z) - FastVC: Fast Voice Conversion with non-parallel data [13.12834490248018]
本稿では、高速音声変換(VC)のためのエンドツーエンドモデルであるFastVCを紹介する。
FastVCは、非並列データでトレーニングされた条件付きAutoEncoder(AE)に基づいており、アノテーションは一切必要としない。
提案されたモデルの単純な構造にもかかわらず、自然性の観点から見ると、VC Challenge 2020の言語横断タスクのベースラインを上回っている。
論文 参考訳(メタデータ) (2020-10-08T18:05:30Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - VQVC+: One-Shot Voice Conversion by Vector Quantization and U-Net
architecture [71.45920122349628]
自動エンコーダベースのVC手法は、話者のアイデンティティを付与することなく、入力音声中の話者とコンテンツをアンタングルする。
自動エンコーダベースのVCシステムでは,U-Netアーキテクチャを用いて音質を向上する。
論文 参考訳(メタデータ) (2020-06-07T14:01:16Z) - Many-to-Many Voice Transformer Network [55.17770019619078]
本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。
これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
論文 参考訳(メタデータ) (2020-05-18T04:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。