論文の概要: MaskCycleGAN-VC: Learning Non-parallel Voice Conversion with Filling in
Frames
- arxiv url: http://arxiv.org/abs/2102.12841v1
- Date: Thu, 25 Feb 2021 13:26:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-26 13:55:35.921529
- Title: MaskCycleGAN-VC: Learning Non-parallel Voice Conversion with Filling in
Frames
- Title(参考訳): MaskCycleGAN-VC:フレーム内充填による非並列音声変換学習
- Authors: Takuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka, Nobukatsu Hojo
- Abstract要約: 非並列音声変換(VC)は、並列コーパスなしで音声コンバータを訓練するための技術です。
本稿では,cyclegan-vc2 の拡張である maskcyclegan-vc を提案し,fif (fif) と呼ばれる新しい補助タスクを用いて訓練を行う。
MaskCycleGAN-VCはCycleGAN-VC2とCycleGAN-VC3の両方で、モデルサイズはCycleGAN-VC2と同等であった。
- 参考スコア(独自算出の注目度): 41.854288814761375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Non-parallel voice conversion (VC) is a technique for training voice
converters without a parallel corpus. Cycle-consistent adversarial
network-based VCs (CycleGAN-VC and CycleGAN-VC2) are widely accepted as
benchmark methods. However, owing to their insufficient ability to grasp
time-frequency structures, their application is limited to mel-cepstrum
conversion and not mel-spectrogram conversion despite recent advances in
mel-spectrogram vocoders. To overcome this, CycleGAN-VC3, an improved variant
of CycleGAN-VC2 that incorporates an additional module called time-frequency
adaptive normalization (TFAN), has been proposed. However, an increase in the
number of learned parameters is imposed. As an alternative, we propose
MaskCycleGAN-VC, which is another extension of CycleGAN-VC2 and is trained
using a novel auxiliary task called filling in frames (FIF). With FIF, we apply
a temporal mask to the input mel-spectrogram and encourage the converter to
fill in missing frames based on surrounding frames. This task allows the
converter to learn time-frequency structures in a self-supervised manner and
eliminates the need for an additional module such as TFAN. A subjective
evaluation of the naturalness and speaker similarity showed that
MaskCycleGAN-VC outperformed both CycleGAN-VC2 and CycleGAN-VC3 with a model
size similar to that of CycleGAN-VC2. Audio samples are available at
http://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/maskcyclegan-vc/index.html.
- Abstract(参考訳): 非並列音声変換(VC)は、並列コーパスなしで音声コンバータを訓練するための技術です。
CycleGAN-VCとCycleGAN-VC2)はベンチマーク手法として広く受け入れられている。
しかし、時間周波数構造を把握できないため、その応用はメル-ケプストラム変換に限られており、近年のメル-スペクトログラムボコーダの進歩にもかかわらず、メル-ケプストラム変換に限られている。
これを解決するために、時間周波数適応正規化(TFAN)と呼ばれる追加モジュールを組み込んだCycleGAN-VC2の改良版であるCycleGAN-VC3が提案されている。
しかし、学習パラメータの数の増加が課されます。
代替として、CycleGAN-VC2の別の拡張であり、フレームの充填(FIF)と呼ばれる新しい補助タスクを使用して訓練されているMaskCycleGAN-VCを提案します。
FIFでは、入力メル-スペクトログラムに時間マスクを適用し、コンバータが周囲のフレームに基づいて欠落フレームを埋めるように促す。
このタスクにより、コンバータは自己教師付きで時間周波数構造を学習でき、TFANのような追加モジュールは不要になる。
MaskCycleGAN-VCはCycleGAN-VC2とCycleGAN-VC3の両方で、モデルサイズはCycleGAN-VC2と同等であった。
オーディオサンプルはhttp://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/maskcyclegan-vc/index.htmlで入手できる。
関連論文リスト
- Streaming Audio-Visual Speech Recognition with Alignment Regularization [69.30185151873707]
本稿では,ハイブリッド接続型時間分類(CTC)/アテンションニューラルネットワークアーキテクチャに基づくストリーミングAV-ASRシステムを提案する。
提案したAV-ASRモデルは、オフラインおよびオンライン設定でLip Reading Sentences 3データセット上で、WERの2.0%と2.6%を達成する。
論文 参考訳(メタデータ) (2022-11-03T20:20:47Z) - Non-autoregressive End-to-end Speech Translation with Parallel
Autoregressive Rescoring [83.32560748324667]
本稿では,非自己回帰モデルに基づく効率的なエンドツーエンド音声翻訳(E2E-ST)フレームワークについて述べる。
我々は,共有エンコーダ上にNARデコーダと補助的な浅層ARデコーダを備えた,Orthrosと呼ばれる統一NAR E2E-STフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-09T16:50:16Z) - DiffSVC: A Diffusion Probabilistic Model for Singing Voice Conversion [51.83469048737548]
本稿では拡散確率モデルに基づくSVCシステムであるDiffSVCを提案する。
DiffSVCでは、破壊されたメルスペクトログラムとその対応するステップ情報を入力として、付加されたガウスノイズを予測するデノナイジングモジュールを訓練する。
実験により、DiffSVCは、現在の最先端SVCアプローチと自然性および音声類似性の観点から、優れた変換性能が得られることが示された。
論文 参考訳(メタデータ) (2021-05-28T14:26:40Z) - Axial Residual Networks for CycleGAN-based Voice Conversion [0.0]
非並列音声変換のための新しいアーキテクチャと訓練目標の改善を提案する。
提案するCycleGANモデルでは,高周波数分解能大スペクトルから直接形状保存変換を行う。
実験により,提案モデルがサイクロンよりも優れており,ニューラルボコーダを使わずにcyclegan-vc2と同等の性能を示すことを示した。
論文 参考訳(メタデータ) (2021-02-16T10:55:35Z) - CycleGAN-VC3: Examining and Improving CycleGAN-VCs for Mel-spectrogram
Conversion [41.87886753817764]
非並列音声変換は、パラレルコーパスを用いることなく、ソースとターゲットの音声のマッピングを学習する技術である。
時間周波数適応正規化(TFAN)を組み込んだCycleGAN-VC2の改良であるCycleGAN-VC3を提案する。
男女間および男女間ノンパラレルVCにおけるCycleGAN-VC3の評価を行った。
論文 参考訳(メタデータ) (2020-10-22T13:08:44Z) - The NU Voice Conversion System for the Voice Conversion Challenge 2020:
On the Effectiveness of Sequence-to-sequence Models and Autoregressive Neural
Vocoders [42.636504426142906]
本稿では,名古屋大学におけるVoice Conversion Challenge 2020(VCC 2020)のための音声変換システムについて紹介する。
本稿では,最近のVCにおける2つの重要な技術,Sequence-to-Sequence(seq2seq)モデルとAutoregressive(AR)ニューラルボコーダの有効性について検討する。
論文 参考訳(メタデータ) (2020-10-09T09:19:37Z) - Many-to-Many Voice Transformer Network [55.17770019619078]
本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。
これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
論文 参考訳(メタデータ) (2020-05-18T04:02:08Z) - Many-to-Many Voice Conversion using Conditional Cycle-Consistent
Adversarial Networks [3.1317409221921144]
我々は、CycleGANを話者にネットワークを条件付けすることで拡張する。
提案手法は,GAN(Generative Adversarial Network)を用いて複数話者間で多対多の音声変換を行うことができる。
提案手法は,各話者に対して複数のCycleGANを構築する場合と比較して,変換された音声の音質を損なうことなく,計算コストと空間コストを大幅に削減する。
論文 参考訳(メタデータ) (2020-02-15T06:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。