論文の概要: Conditional Deep Hierarchical Variational Autoencoder for Voice
Conversion
- arxiv url: http://arxiv.org/abs/2112.02796v1
- Date: Mon, 6 Dec 2021 05:54:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-07 18:25:41.846944
- Title: Conditional Deep Hierarchical Variational Autoencoder for Voice
Conversion
- Title(参考訳): 音声変換のための条件付き深層可変オートエンコーダ
- Authors: Kei Akuzawa, Kotaro Onishi, Keisuke Takiguchi, Kohki Mametani,
Koichiro Mori
- Abstract要約: 変分オートエンコーダに基づく音声変換(VAE-VC)は、訓練のために音声と話者ラベルのペアだけを必要とする利点がある。
本稿では, モデル表現性の増加がVAE-VCに与える影響について検討する。
- 参考スコア(独自算出の注目度): 5.538544897623972
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Variational autoencoder-based voice conversion (VAE-VC) has the advantage of
requiring only pairs of speeches and speaker labels for training. Unlike the
majority of the research in VAE-VC which focuses on utilizing auxiliary losses
or discretizing latent variables, this paper investigates how an increasing
model expressiveness has benefits and impacts on the VAE-VC. Specifically, we
first analyze VAE-VC from a rate-distortion perspective, and point out that
model expressiveness is significant for VAE-VC because rate and distortion
reflect similarity and naturalness of converted speeches. Based on the
analysis, we propose a novel VC method using a deep hierarchical VAE, which has
high model expressiveness as well as having fast conversion speed thanks to its
non-autoregressive decoder. Also, our analysis reveals another problem that
similarity can be degraded when the latent variable of VAEs has redundant
information. We address the problem by controlling the information contained in
the latent variable using $\beta$-VAE objective. In the experiment using VCTK
corpus, the proposed method achieved mean opinion scores higher than 3.5 on
both naturalness and similarity in inter-gender settings, which are higher than
the scores of existing autoencoder-based VC methods.
- Abstract(参考訳): 変分オートエンコーダに基づく音声変換(VAE-VC)は、訓練のために音声と話者ラベルのペアだけを必要とする利点がある。
補助的損失の活用や潜伏変数の離散化に着目したVAE-VCの研究と異なり, モデル表現の増大がVAE-VCに与える影響について検討する。
具体的には、VAE-VCを周波数歪みの観点から分析し、変換された音声の類似性と自然性を反映するため、VAE-VCにはモデル表現性が重要であることを指摘する。
そこで本研究では,非自己回帰デコーダによる高速変換速度に加えて,高いモデル表現性を有する深い階層型vaeを用いた新しいvc法を提案する。
また,vaesの潜在変数が冗長な情報を持つ場合,類似性が低下する問題も解析により明らかにする。
この問題は、$\beta$-VAEの目的を用いて潜伏変数に含まれる情報を制御することで解決する。
VCTKコーパスを用いた実験では,従来の自己エンコーダを用いたVC法よりも高いジェンダー間設定における自然性および類似性において,平均スコアが3.5以上の結果を得た。
関連論文リスト
- Disentangled Variational Autoencoder for Emotion Recognition in
Conversations [14.92924920489251]
会話(ERC)における感情認識のためのVAD-VAE(VAD-VAE)を提案する。
VAD-VAEは3つをアンタングルし、Valence-Arousal-Dominance(VAD)を潜在空間から表現する。
実験により、VAD-VAEは2つのデータセット上で最先端のモデルより優れていることが示された。
論文 参考訳(メタデータ) (2023-05-23T13:50:06Z) - Robust Disentangled Variational Speech Representation Learning for
Zero-shot Voice Conversion [34.139871476234205]
自己教師付き不協和音声表現学習の新たな視点からゼロショット音声変換について検討する。
任意の話者埋め込みとコンテンツ埋め込みとを逐次変分オートエンコーダ(VAE)デコーダに供給してゼロショット音声変換を行う。
TIMIT と VCTK のデータセットでは,話者の埋め込みとコンテンツ埋め込みに関する話者検証 (SV) と主観的評価,すなわち音声の自然性や類似性を両立させ,ノイズのある音源/ターゲット発話においても頑健である。
論文 参考訳(メタデータ) (2022-03-30T23:03:19Z) - AAVAE: Augmentation-Augmented Variational Autoencoders [43.73699420145321]
本稿では,自動符号化に基づく自己教師型学習における第3のアプローチであるAugmentation-augmented variational autoencoders (AAVAE)を紹介する。
画像分類において提案したAAVAEを,最近のコントラスト学習アルゴリズムや非コントラスト学習アルゴリズムと同様に実証的に評価した。
論文 参考訳(メタデータ) (2021-07-26T17:04:30Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - DiffSVC: A Diffusion Probabilistic Model for Singing Voice Conversion [51.83469048737548]
本稿では拡散確率モデルに基づくSVCシステムであるDiffSVCを提案する。
DiffSVCでは、破壊されたメルスペクトログラムとその対応するステップ情報を入力として、付加されたガウスノイズを予測するデノナイジングモジュールを訓練する。
実験により、DiffSVCは、現在の最先端SVCアプローチと自然性および音声類似性の観点から、優れた変換性能が得られることが示された。
論文 参考訳(メタデータ) (2021-05-28T14:26:40Z) - Switching Variational Auto-Encoders for Noise-Agnostic Audio-visual
Speech Enhancement [26.596930749375474]
本稿では,異なるVAEアーキテクチャを時間的に切り換えるために,マルコフの依存関係を持つ潜在逐次変数を導入する。
モデルのパラメータを推定し、音声信号を強化するために、対応する変動予測-最大化アルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-02-08T11:45:02Z) - Hierarchical Variational Autoencoder for Visual Counterfactuals [79.86967775454316]
条件変量オート(VAE)は、説明可能な人工知能(XAI)ツールとして注目されている。
本稿では, 後部の効果がいかに緩和され, 対物的効果が成功するかを示す。
本稿では,アプリケーション内の分類器を視覚的に監査できる階層型VAEについて紹介する。
論文 参考訳(メタデータ) (2021-02-01T14:07:11Z) - Autoencoding Variational Autoencoder [56.05008520271406]
我々は,この行動が学習表現に与える影響と,自己整合性の概念を導入することでそれを修正する結果について検討する。
自己整合性アプローチで訓練されたエンコーダは、敵攻撃による入力の摂動に対して頑健な(無神経な)表現につながることを示す。
論文 参考訳(メタデータ) (2020-12-07T14:16:14Z) - Simple and Effective VAE Training with Calibrated Decoders [123.08908889310258]
変分オートエンコーダ(VAE)は、複雑な分布をモデル化するための効果的で簡単な方法である。
復号分布の不確かさを学習する校正復号器の影響について検討する。
本稿では,一般的なガウス復号器の簡易かつ斬新な修正を提案し,その予測分散を解析的に計算する。
論文 参考訳(メタデータ) (2020-06-23T17:57:47Z) - F0-consistent many-to-many non-parallel voice conversion via conditional
autoencoder [53.901873501494606]
自動エンコーダによる音声変換を改良し,コンテンツ,F0,話者識別を同時に行う。
我々はF0輪郭を制御でき、ターゲット話者と一致したF0音声を生成し、品質と類似性を大幅に向上させることができる。
論文 参考訳(メタデータ) (2020-04-15T22:00:06Z) - Unsupervised Representation Disentanglement using Cross Domain Features
and Adversarial Learning in Variational Autoencoder based Voice Conversion [28.085498706505774]
音声変換(VC)の効果的なアプローチは、音声信号の他のコンポーネントから言語内容を切り離すことである。
本稿では,逆学習の概念を取り入れ,CDVAE-VCフレームワークを拡張した。
論文 参考訳(メタデータ) (2020-01-22T02:06:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。