論文の概要: CycleGAN-VC3: Examining and Improving CycleGAN-VCs for Mel-spectrogram
Conversion
- arxiv url: http://arxiv.org/abs/2010.11672v1
- Date: Thu, 22 Oct 2020 13:08:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 06:15:59.009753
- Title: CycleGAN-VC3: Examining and Improving CycleGAN-VCs for Mel-spectrogram
Conversion
- Title(参考訳): CycleGAN-VC3:メル・スペクトログラム変換のためのCycleGAN-VCの検討と改善
- Authors: Takuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka, Nobukatsu Hojo
- Abstract要約: 非並列音声変換は、パラレルコーパスを用いることなく、ソースとターゲットの音声のマッピングを学習する技術である。
時間周波数適応正規化(TFAN)を組み込んだCycleGAN-VC2の改良であるCycleGAN-VC3を提案する。
男女間および男女間ノンパラレルVCにおけるCycleGAN-VC3の評価を行った。
- 参考スコア(独自算出の注目度): 41.87886753817764
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Non-parallel voice conversion (VC) is a technique for learning mappings
between source and target speeches without using a parallel corpus. Recently,
cycle-consistent adversarial network (CycleGAN)-VC and CycleGAN-VC2 have shown
promising results regarding this problem and have been widely used as benchmark
methods. However, owing to the ambiguity of the effectiveness of
CycleGAN-VC/VC2 for mel-spectrogram conversion, they are typically used for
mel-cepstrum conversion even when comparative methods employ mel-spectrogram as
a conversion target. To address this, we examined the applicability of
CycleGAN-VC/VC2 to mel-spectrogram conversion. Through initial experiments, we
discovered that their direct applications compromised the time-frequency
structure that should be preserved during conversion. To remedy this, we
propose CycleGAN-VC3, an improvement of CycleGAN-VC2 that incorporates
time-frequency adaptive normalization (TFAN). Using TFAN, we can adjust the
scale and bias of the converted features while reflecting the time-frequency
structure of the source mel-spectrogram. We evaluated CycleGAN-VC3 on
inter-gender and intra-gender non-parallel VC. A subjective evaluation of
naturalness and similarity showed that for every VC pair, CycleGAN-VC3
outperforms or is competitive with the two types of CycleGAN-VC2, one of which
was applied to mel-cepstrum and the other to mel-spectrogram. Audio samples are
available at
http://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/cyclegan-vc3/index.html.
- Abstract(参考訳): 非並列音声変換(non-parallel voice conversion、VC)は、パラレルコーパスを用いることなく、ソースとターゲットの音声のマッピングを学習する技術である。
近年,CycleGAN-VCとCycleGAN-VC2はこの問題に関して有望な結果を示し,ベンチマーク手法として広く利用されている。
しかし, メル-スケプストラム変換におけるCycleGAN-VC/VC2の有効性の曖昧さから, メル-スケプストラム変換に使用されることが多い。
そこで我々は,CycleGAN-VC/VC2のメル-スペクトログラム変換への適用性を検討した。
初期実験により, 変換中に保存すべき時間周波数構造を, 直接適用で損なうことが判明した。
本稿では、時間周波数適応正規化(TFAN)を組み込んだCycleGAN-VC2の改良であるCycleGAN-VC3を提案する。
TFANを用いて、変換された特徴のスケールとバイアスを、ソースメルスペクトルの時間周波数構造を反映して調整することができる。
CycleGAN-VC3を男女間および男女間非並列VCで評価した。
自然性と類似性を主観的に評価した結果,各VCペアにおいてCycleGAN-VC3は2種類のCycleGAN-VC2よりも優れており,その一方がメル-ケプストラム,もう一方がメル-ケプストラムであった。
オーディオサンプルはhttp://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/cyclegan-vc3/index.htmlで入手できる。
関連論文リスト
- CR-CTC: Consistency regularization on CTC for improved speech recognition [18.996929774821822]
Connectionist Temporal Classification (CTC) は自動音声認識(ASR)の手法として広く使われている。
しかし、CTCとアテンションベースのエンコーダデコーダ(CTC/AED)を組み合わせたトランスデューサやシステムと比較すると、認識性能に劣ることが多い。
本稿では,入力音声メルスペクトルの異なる拡張ビューから得られた2つのCTC分布間の整合性を実現するConsistency-Regularized CTC (CR-CTC)を提案する。
論文 参考訳(メタデータ) (2024-10-07T14:56:07Z) - IVAC-P2L: Leveraging Irregular Repetition Priors for Improving Video Action Counting [24.596979713593765]
ビデオアクションカウント(VAC)は、ビデオ内の反復的なアクションを分析する上で重要である。
伝統的な手法は、割り込みや周期の変動など、アクション反復の複雑さを見落としてきた。
ビデオにおける不規則な反復パターンのモデル化を優先する不規則なビデオアクションカウント(IVAC)を導入する。
論文 参考訳(メタデータ) (2024-03-18T16:56:47Z) - CycleCL: Self-supervised Learning for Periodic Videos [5.9647924003148365]
本稿では,周期データを扱うための自己教師付き学習手法であるCycleCLを提案する。
ビデオの繰り返しを利用して,三重項損失に基づく新しいコントラスト学習手法を設計する。
提案手法では, ほぼ同じ位相のフレーム対と異なる位相の負のフレーム対をサンプリングするために, 事前学習した特徴を用いる。
論文 参考訳(メタデータ) (2023-11-05T17:40:10Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - Streaming Audio-Visual Speech Recognition with Alignment Regularization [69.30185151873707]
本稿では,ハイブリッド接続型時間分類(CTC)/アテンションニューラルネットワークアーキテクチャに基づくストリーミングAV-ASRシステムを提案する。
提案したAV-ASRモデルは、オフラインおよびオンライン設定でLip Reading Sentences 3データセット上で、WERの2.0%と2.6%を達成する。
論文 参考訳(メタデータ) (2022-11-03T20:20:47Z) - Long-Short Temporal Contrastive Learning of Video Transformers [62.71874976426988]
ビデオのみのデータセットにおけるビデオトランスフォーマーの自己教師付き事前トレーニングは、大規模画像データセットでの教師付き事前トレーニングで得られたものよりも、同等以上のアクション認識結果につながる可能性がある。
我々の手法は、長短時空間コントラスト学習(Long-Short Temporal Contrastive Learning)と呼ばれ、ビデオトランスフォーマーが、より長い時間的範囲から捉えた時間的文脈を予測することによって、効果的なクリップレベルの表現を学習することを可能にする。
論文 参考訳(メタデータ) (2021-06-17T02:30:26Z) - MaskCycleGAN-VC: Learning Non-parallel Voice Conversion with Filling in
Frames [41.854288814761375]
非並列音声変換(VC)は、並列コーパスなしで音声コンバータを訓練するための技術です。
本稿では,cyclegan-vc2 の拡張である maskcyclegan-vc を提案し,fif (fif) と呼ばれる新しい補助タスクを用いて訓練を行う。
MaskCycleGAN-VCはCycleGAN-VC2とCycleGAN-VC3の両方で、モデルサイズはCycleGAN-VC2と同等であった。
論文 参考訳(メタデータ) (2021-02-25T13:26:58Z) - Axial Residual Networks for CycleGAN-based Voice Conversion [0.0]
非並列音声変換のための新しいアーキテクチャと訓練目標の改善を提案する。
提案するCycleGANモデルでは,高周波数分解能大スペクトルから直接形状保存変換を行う。
実験により,提案モデルがサイクロンよりも優れており,ニューラルボコーダを使わずにcyclegan-vc2と同等の性能を示すことを示した。
論文 参考訳(メタデータ) (2021-02-16T10:55:35Z) - Spectrum and Prosody Conversion for Cross-lingual Voice Conversion with
CycleGAN [81.79070894458322]
言語間の音声変換は、ソース話者とターゲット話者が異なる言語を話すとき、ソース話者の音声をターゲット話者の音声のように聞こえるようにすることを目的としている。
従来の言語間音声変換の研究は、主にF0転送のための線形変換を伴うスペクトル変換に焦点を当てていた。
本稿では,F0モデリングにおける連続ウェーブレット変換(CWT)の分解手法を提案する。
論文 参考訳(メタデータ) (2020-08-11T07:29:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。