論文の概要: VQVC+: One-Shot Voice Conversion by Vector Quantization and U-Net
architecture
- arxiv url: http://arxiv.org/abs/2006.04154v1
- Date: Sun, 7 Jun 2020 14:01:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 08:39:48.325183
- Title: VQVC+: One-Shot Voice Conversion by Vector Quantization and U-Net
architecture
- Title(参考訳): VQVC+:ベクトル量子化とU-Netアーキテクチャによるワンショット音声変換
- Authors: Da-Yi Wu, Yen-Hao Chen, Hung-Yi Lee
- Abstract要約: 自動エンコーダベースのVC手法は、話者のアイデンティティを付与することなく、入力音声中の話者とコンテンツをアンタングルする。
自動エンコーダベースのVCシステムでは,U-Netアーキテクチャを用いて音質を向上する。
- 参考スコア(独自算出の注目度): 71.45920122349628
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Voice conversion (VC) is a task that transforms the source speaker's timbre,
accent, and tones in audio into another one's while preserving the linguistic
content. It is still a challenging work, especially in a one-shot setting.
Auto-encoder-based VC methods disentangle the speaker and the content in input
speech without given the speaker's identity, so these methods can further
generalize to unseen speakers. The disentangle capability is achieved by vector
quantization (VQ), adversarial training, or instance normalization (IN).
However, the imperfect disentanglement may harm the quality of output speech.
In this work, to further improve audio quality, we use the U-Net architecture
within an auto-encoder-based VC system. We find that to leverage the U-Net
architecture, a strong information bottleneck is necessary. The VQ-based
method, which quantizes the latent vectors, can serve the purpose. The
objective and the subjective evaluations show that the proposed method performs
well in both audio naturalness and speaker similarity.
- Abstract(参考訳): 音声変換(Voice conversion, VC)とは、音源話者の音色、アクセント、音色を、言語的内容を保持しながら他の音に変換するタスクである。
特にワンショットの環境では、まだ難しい作業だ。
自動エンコーダベースのVC手法は、話者のアイデンティティを付与せずに、入力音声中の話者とコンテンツをアンタングルするので、これらの手法は見当たらない話者にさらに一般化することができる。
逆角化能力は、ベクトル量子化(VQ)、敵対的トレーニング、インスタンス正規化(IN)によって達成される。
しかし、不完全な乱れは出力音声の品質を損なう可能性がある。
本研究では,音声品質の向上を目的として,自動エンコーダベースVCシステム内でU-Netアーキテクチャを利用する。
U-Netアーキテクチャを活用するためには,強力な情報ボトルネックが必要である。
潜在ベクトルを量子化するVQベースの手法は、その目的を果たすことができる。
目的と主観評価は,提案手法が音声の自然性と話者の類似性の両方で良好に動作することを示す。
関連論文リスト
- AdaptVC: High Quality Voice Conversion with Adaptive Learning [28.25726543043742]
鍵となる課題は、ソースと音声スタイルから絡み合った言語コンテンツを抽出することである。
本稿では,アダプタを用いた自己教師型音声特徴の調整により,コンテンツと話者の特徴のアンタングル化を成功させる。
アダプタは、リッチな自己教師付き特徴からニュアンス特徴を動的に符号化するように訓練され、デコーダはそれらを融合して参照に正確に類似した音声を生成する。
論文 参考訳(メタデータ) (2025-01-02T16:54:08Z) - HiFi-VC: High Quality ASR-Based Voice Conversion [0.0]
音声変換パイプラインを新たに提案する。
提案手法では,音声認識機能,ピッチ追跡,最先端波形予測モデルを用いる。
論文 参考訳(メタデータ) (2022-03-31T10:45:32Z) - VCVTS: Multi-speaker Video-to-Speech synthesis via cross-modal knowledge
transfer from voice conversion [77.50171525265056]
本稿では,音声変換(VC)からのクロスモーダルな知識伝達に基づく,VTS(Multi-Speaker Video-to-Speech)システムを提案する。
Lip2Indネットワークは、VCのコンテンツエンコーダを交換してマルチスピーカVTSシステムを形成し、サイレントビデオを音響ユニットに変換して正確な音声コンテンツを再構成する。
論文 参考訳(メタデータ) (2022-02-18T08:58:45Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Voicy: Zero-Shot Non-Parallel Voice Conversion in Noisy Reverberant
Environments [76.98764900754111]
音声変換(Voice Conversion, VC)は, 音源発話の非言語情報を変換し, 話者の同一性を変化させることを目的とした技術である。
我々は、特に騒々しいスピーチに適した新しいVCフレームワークであるVoicyを提案する。
自動エンコーダフレームワークにインスパイアされた本手法は,4つのエンコーダ(スピーカ,コンテンツ,音声,音響-ASR)と1つのデコーダから構成される。
論文 参考訳(メタデータ) (2021-06-16T15:47:06Z) - NVC-Net: End-to-End Adversarial Voice Conversion [7.14505983271756]
NVC-Netは、任意の長さの生音声波形上で直接音声変換を行うエンド・ツー・エンドの敵対ネットワークである。
我々のモデルはNVIDIA V100 GPU上で3600kHz以上の速度でサンプルを生成することができ、最先端の手法よりも桁違いに高速である。
論文 参考訳(メタデータ) (2021-06-02T07:19:58Z) - NoiseVC: Towards High Quality Zero-Shot Voice Conversion [2.3224617218247126]
NoiseVC は、VQ と Contrastive Predictive Coding (CPC) に基づいてコンテンツを切り離すことができるアプローチである。
我々は,いくつかの実験を行い,ノイズvcは品質を犠牲にして,強い絡み合い能力を持つことを実証する。
論文 参考訳(メタデータ) (2021-04-13T10:12:38Z) - Many-to-Many Voice Transformer Network [55.17770019619078]
本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。
これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
論文 参考訳(メタデータ) (2020-05-18T04:02:08Z) - F0-consistent many-to-many non-parallel voice conversion via conditional
autoencoder [53.901873501494606]
自動エンコーダによる音声変換を改良し,コンテンツ,F0,話者識別を同時に行う。
我々はF0輪郭を制御でき、ターゲット話者と一致したF0音声を生成し、品質と類似性を大幅に向上させることができる。
論文 参考訳(メタデータ) (2020-04-15T22:00:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。