論文の概要: AE-Flow: AutoEncoder Normalizing Flow
- arxiv url: http://arxiv.org/abs/2312.16552v1
- Date: Wed, 27 Dec 2023 12:29:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 19:04:49.647243
- Title: AE-Flow: AutoEncoder Normalizing Flow
- Title(参考訳): AE-Flow: フローを正規化するオートエンコーダ
- Authors: Jakub Mosi\'nski, Piotr Bili\'nski, Thomas Merritt, Abdelhamid Ezzerg,
Daniel Korzekwa
- Abstract要約: 近年,テキスト音声変換(TTS)と音声変換(VC)において,正規化の流れが牽引されている。
本稿では,並列データを必要とせず,フローの正規化に関するトレーニングプロセスの監督について紹介する。
モデルにコンディショニングから情報を使ってオーディオサンプルを再構築させるリコンストラクションロスが追加される。
- 参考スコア(独自算出の注目度): 9.556342539852047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently normalizing flows have been gaining traction in text-to-speech (TTS)
and voice conversion (VC) due to their state-of-the-art (SOTA) performance.
Normalizing flows are unsupervised generative models. In this paper, we
introduce supervision to the training process of normalizing flows, without the
need for parallel data. We call this training paradigm AutoEncoder Normalizing
Flow (AE-Flow). It adds a reconstruction loss forcing the model to use
information from the conditioning to reconstruct an audio sample. Our goal is
to understand the impact of each component and find the right combination of
the negative log-likelihood (NLL) and the reconstruction loss in training
normalizing flows with coupling blocks. For that reason we will compare
flow-based mapping model trained with: (i) NLL loss, (ii) NLL and
reconstruction losses, as well as (iii) reconstruction loss only. Additionally,
we compare our model with SOTA VC baseline. The models are evaluated in terms
of naturalness, speaker similarity, intelligibility in many-to-many and
many-to-any VC settings. The results show that the proposed training paradigm
systematically improves speaker similarity and naturalness when compared to
regular training methods of normalizing flows. Furthermore, we show that our
method improves speaker similarity and intelligibility over the
state-of-the-art.
- Abstract(参考訳): 近年,テキスト音声 (TTS) や音声変換 (VC) では,SOTA (State-of-the-art) の性能が向上している。
正規化フローは教師なし生成モデルである。
本稿では,並列データを必要とせず,フローの正規化に関するトレーニングプロセスの監督について紹介する。
私たちはこのトレーニングパラダイムをAutoEncoder Normalizing Flow (AE-Flow)と呼んでいる。
モデルにコンディショニングから情報を使ってオーディオサンプルを再構築させるリコンストラクションロスが追加される。
我々のゴールは、各コンポーネントの影響を理解し、負の対数類似度(NLL)と結合ブロックによる正規化フローのトレーニングにおける再構成損失の正しい組み合わせを見つけることである。
そのため、トレーニングされたフローベースのマッピングモデルを比較します。
(i)NLL損失
(ii)nll及び復興損失、及び
(iii) 復元損失のみ。
さらに、私たちのモデルをSOTA VCベースラインと比較する。
モデルは、自然性、話者類似性、多対多のVC設定における知性の観点から評価される。
提案手法は,正規化流の正規化法と比較して,話者の類似性と自然性が系統的に向上することを示す。
さらに,提案手法は,最先端技術に対する話者の類似性や知性を向上させる。
関連論文リスト
- Guided Flows for Generative Modeling and Decision Making [55.42634941614435]
その結果,ガイドフローは条件付き画像生成やゼロショット音声合成におけるサンプル品質を著しく向上させることがわかった。
特に、我々は、拡散モデルと比較して、オフライン強化学習設定axスピードアップにおいて、まず、計画生成にフローモデルを適用する。
論文 参考訳(メタデータ) (2023-11-22T15:07:59Z) - TIDE: Temporally Incremental Disparity Estimation via Pattern Flow in
Structured Light System [17.53719804060679]
TIDE-Netはモノカメラ構造光システムにおける差分計算の学習手法である。
得られた画像列に投影されたパターン(パターンフロー)の変形を利用して時間情報をモデル化する。
入力フレーム毎に、パターンフローに歪んだ相関ボリューム(現在のフレームから)と不均一(以前のフレームから)を融合する。
論文 参考訳(メタデータ) (2023-10-13T07:55:33Z) - Importance of Smoothness Induced by Optimizers in FL4ASR: Towards
Understanding Federated Learning for End-to-End ASR [12.108696564200052]
フェデレートラーニング(FL)を用いたエンドツーエンド自動音声認識(ASR)モデルの訓練から始める。
FLを用いて訓練したモデルと,その集中型モデルとの単語誤り率の観点から,性能ギャップを最小化する上で重要な基本的考察について検討する。
論文 参考訳(メタデータ) (2023-09-22T17:23:01Z) - DistractFlow: Improving Optical Flow Estimation via Realistic
Distractions and Pseudo-Labeling [49.46842536813477]
本稿では,光フロー推定モデルのトレーニングのための新しいデータ拡張手法であるDistractFlowを提案する。
2つのフレームのうちの1つを、類似したドメインを描写したイントラクタイメージと組み合わせることで、自然の物体やシーンと相反する視覚的摂動を誘発することができる。
私たちのアプローチでは、追加のアノテーションを必要とせずに、利用可能なトレーニングペアの数を大幅に増やすことができます。
論文 参考訳(メタデータ) (2023-03-24T15:42:54Z) - Consistent Diffusion Models: Mitigating Sampling Drift by Learning to be
Consistent [97.64313409741614]
本稿では, モデルが生成したデータ上での予測が時間とともに一定であることを示す, 両立性特性を強制することを提案する。
CIFAR-10の条件および非条件生成とAFHQとFFHQのベースライン改良について,本研究の新たな訓練目標が得られた。
論文 参考訳(メタデータ) (2023-02-17T18:45:04Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - Attentive Contractive Flow with Lipschitz-constrained Self-Attention [25.84621883831624]
注意的収縮フロー(ACF)と呼ばれる新しいアプローチを導入する。
ACFは、フローベースの生成モデル - 収縮フロー - の特別なカテゴリを利用する。
我々は, ACFをプラグアンドプレイ方式で, 各種のアートフローモデルに導入できることを実証した。
論文 参考訳(メタデータ) (2021-09-24T18:02:49Z) - DeFlow: Learning Complex Image Degradations from Unpaired Data with
Conditional Flows [145.83812019515818]
本論文では,不対データから画像劣化を学習するDeFlowを提案する。
共有フローデコーダネットワークの潜在空間における劣化過程をモデル化する。
共同画像復元と超解像におけるDeFlowの定式化を検証した。
論文 参考訳(メタデータ) (2021-01-14T18:58:01Z) - Normalizing Flows with Multi-Scale Autoregressive Priors [131.895570212956]
マルチスケール自己回帰前処理(mAR)を通した遅延空間におけるチャネルワイド依存性を導入する。
我々のmARは、分割結合フロー層(mAR-SCF)を持つモデルに先立って、複雑なマルチモーダルデータの依存関係をよりよく捉えます。
我々は,mAR-SCFにより画像生成品質が向上し,FIDとインセプションのスコアは最先端のフローベースモデルと比較して向上したことを示す。
論文 参考訳(メタデータ) (2020-04-08T09:07:11Z) - Closing the Dequantization Gap: PixelCNN as a Single-Layer Flow [16.41460104376002]
有限体積を変換し、離散データに対する確率の正確な計算を可能にするサブセットフローを導入する。
我々は、WaveNets、PixelCNNs、Transformersを含む通常の離散自己回帰モデルを単層フローとして識別する。
我々は, CIFAR-10 を用いて, 脱量子化を訓練した流れモデルについて, 実測結果を示す。
論文 参考訳(メタデータ) (2020-02-06T22:58:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。