論文の概要: Axial Residual Networks for CycleGAN-based Voice Conversion
- arxiv url: http://arxiv.org/abs/2102.08075v1
- Date: Tue, 16 Feb 2021 10:55:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-17 14:47:16.462256
- Title: Axial Residual Networks for CycleGAN-based Voice Conversion
- Title(参考訳): Axial Residual Networks for CycleGAN-based Voice Conversion
- Authors: Jaeseong You, Gyuhyeon Nam, Dalhyun Kim, Gyeongsu Chae
- Abstract要約: 非並列音声変換のための新しいアーキテクチャと訓練目標の改善を提案する。
提案するCycleGANモデルでは,高周波数分解能大スペクトルから直接形状保存変換を行う。
実験により,提案モデルがサイクロンよりも優れており,ニューラルボコーダを使わずにcyclegan-vc2と同等の性能を示すことを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel architecture and improved training objectives for
non-parallel voice conversion. Our proposed CycleGAN-based model performs a
shape-preserving transformation directly on a high frequency-resolution
magnitude spectrogram, converting its style (i.e. speaker identity) while
preserving the speech content. Throughout the entire conversion process, the
model does not resort to compressed intermediate representations of any sort
(e.g. mel spectrogram, low resolution spectrogram, decomposed network feature).
We propose an efficient axial residual block architecture to support this
expensive procedure and various modifications to the CycleGAN losses to
stabilize the training process. We demonstrate via experiments that our
proposed model outperforms Scyclone and shows a comparable or better
performance to that of CycleGAN-VC2 even without employing a neural vocoder.
- Abstract(参考訳): 非並列音声変換のための新しいアーキテクチャと訓練目標の改善を提案する。
提案するCycleGANモデルでは,高周波数分解能度スペクトログラムに直接形状保存変換を行い,そのスタイルを変換する。
話者識別) 音声コンテンツを保存しながら。
変換プロセス全体を通して、モデルは任意の種類の圧縮された中間表現に頼らない(例えば)。
mel spectrogram, low resolution spectrogram, decomposed network feature)の略。
この高価な手順とCycleGAN損失に対する様々な修正をサポートし、トレーニングプロセスを安定させるために、効率的な軸残存ブロックアーキテクチャを提案します。
実験により,提案モデルがサイクロンよりも優れており,ニューラルボコーダを使わずにcyclegan-vc2と同等の性能を示すことを示した。
関連論文リスト
- Corner-to-Center Long-range Context Model for Efficient Learned Image
Compression [70.0411436929495]
学習された画像圧縮のフレームワークでは、コンテキストモデルは潜在表現間の依存関係をキャプチャする上で重要な役割を果たす。
本研究では,textbfCorner-to-Center 変換器を用いたコンテキストモデル (C$3$M) を提案する。
また,解析および合成変換における受容場を拡大するために,エンコーダ/デコーダのLong-range Crossing Attention Module (LCAM) を用いる。
論文 参考訳(メタデータ) (2023-11-29T21:40:28Z) - Effective Invertible Arbitrary Image Rescaling [77.46732646918936]
Invertible Neural Networks (INN)は、ダウンスケーリングとアップスケーリングのサイクルを共同で最適化することにより、アップスケーリングの精度を大幅に向上させることができる。
本研究の1つのモデルのみをトレーニングすることにより、任意の画像再スケーリングを実現するために、単純で効果的な非可逆的再スケーリングネットワーク(IARN)を提案する。
LR出力の知覚品質を損なうことなく、双方向任意再スケーリングにおいて最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2022-09-26T22:22:30Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - CycleTransGAN-EVC: A CycleGAN-based Emotional Voice Conversion Model
with Transformer [11.543807097834785]
本稿では,CycleGANに基づくトランスフォーマーモデルを提案し,感情音声変換タスクにおけるその能力について検討する。
トレーニング手順では、カリキュラム学習を採用し、フレーム長を徐々に増加させ、短いセグメントからスピーチ全体までモデルを見ることができるようにします。
その結果,提案モデルでは,より強みと質の高い感情を変換できることがわかった。
論文 参考訳(メタデータ) (2021-11-30T06:33:57Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z) - Low-Latency Real-Time Non-Parallel Voice Conversion based on Cyclic
Variational Autoencoder and Multiband WaveRNN with Data-Driven Linear
Prediction [38.828260316517536]
本稿では、周期的変動オートエンコーダ(CycleVAE)とデータ駆動線形予測(MWDLP)を用いたマルチバンドWaveRNNに基づく低遅延リアルタイム(LLRT)非並列音声変換フレームワークを提案する。
提案したフレームワークは高性能なVCを実現し、LLRTをシングルコアの2.1$--2.7$GHz CPUでリアルタイムの0.87$--0.95$、入出力、特徴抽出、フレームシフト10$ms、ウィンドウ長27.5$msで使用可能にする。
論文 参考訳(メタデータ) (2021-05-20T16:06:11Z) - DiffSinger: Diffusion Acoustic Model for Singing Voice Synthesis [53.19363127760314]
DiffSingerは、音楽スコアで調整されたメログラムにノイズを反復的に変換するパラメータ化されたマルコフチェーンです。
中国の歌唱データセットで行った評価は、DiffSingerが最先端のSVSワークを顕著な差で上回っていることを示している。
論文 参考訳(メタデータ) (2021-05-06T05:21:42Z) - Conditioning Trick for Training Stable GANs [70.15099665710336]
本稿では,GANトレーニング中の不安定性問題に対応するため,ジェネレータネットワークに正規性から逸脱する条件付け手法を提案する。
我々は、生成元をシュア分解のスペクトル領域で計算された実サンプルの正規化関数から逸脱するように強制する。
論文 参考訳(メタデータ) (2020-10-12T16:50:22Z) - Non-parallel Emotion Conversion using a Deep-Generative Hybrid Network
and an Adversarial Pair Discriminator [16.18921154013272]
本稿では,並列学習データを必要としない音声における感情変換手法を提案する。
従来のサイクルGANとは異なり、我々の判別器は1対の入力実と生成されたサンプルが所望の感情変換に対応するかどうかを分類する。
本稿では,Wavenet が生成した音声を改良することにより,新しい話者に一般化することを示す。
論文 参考訳(メタデータ) (2020-07-25T13:50:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。