論文の概要: Boosting Star-GANs for Voice Conversion with Contrastive Discriminator
- arxiv url: http://arxiv.org/abs/2209.10088v1
- Date: Wed, 21 Sep 2022 03:34:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 15:40:36.986270
- Title: Boosting Star-GANs for Voice Conversion with Contrastive Discriminator
- Title(参考訳): コントラスト判別器を用いた音声変換のためのスターガンのブースティング
- Authors: Shijing Si, Jianzong Wang, Xulong Zhang, Xiaoyang Qu, Ning Cheng and
Jing Xiao
- Abstract要約: SimSiam-StarGAN-VCは、StarGAN識別器の効率的なネットワーク構造である。
SimSiam-StarGAN-VCはトレーニングの安定性を高め、差別者が過度に適合する問題を効果的に防止する。
以上の結果から,SimSiam-StarGAN-VCは既存のStarGAN-VC法よりも主観的,主観的の両方で優れていた。
- 参考スコア(独自算出の注目度): 31.63303422339832
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Nonparallel multi-domain voice conversion methods such as the StarGAN-VCs
have been widely applied in many scenarios. However, the training of these
models usually poses a challenge due to their complicated adversarial network
architectures. To address this, in this work we leverage the state-of-the-art
contrastive learning techniques and incorporate an efficient Siamese network
structure into the StarGAN discriminator. Our method is called
SimSiam-StarGAN-VC and it boosts the training stability and effectively
prevents the discriminator overfitting issue in the training process. We
conduct experiments on the Voice Conversion Challenge (VCC 2018) dataset, plus
a user study to validate the performance of our framework. Our experimental
results show that SimSiam-StarGAN-VC significantly outperforms existing
StarGAN-VC methods in terms of both the objective and subjective metrics.
- Abstract(参考訳): StarGAN-VCのような並列でないマルチドメイン音声変換法は多くのシナリオで広く応用されている。
しかしながら、これらのモデルのトレーニングは通常、複雑な敵ネットワークアーキテクチャのため、課題となる。
そこで本研究では,最先端のコントラスト学習手法を活用し,効率的なシャムネットワーク構造をスターガン判別器に組み込む。
我々の手法はSimSiam-StarGAN-VCと呼ばれ、トレーニング安定性を高め、トレーニングプロセスにおける差別者の過剰適合を効果的に防止する。
我々は、Voice Conversion Challenge (VCC 2018)データセットと、我々のフレームワークの性能を検証するためのユーザスタディの実験を行っている。
実験の結果,SimSiam-StarGAN-VCは既存のStarGAN-VC法よりも客観的,主観的両指標で優れていた。
関連論文リスト
- Contrastive Learning-based Chaining-Cluster for Multilingual Voice-Face Association [24.843733099049015]
本稿では,FAME (Face-Voice Association in Multilingual Environments) 2024の課題に対して,新たな解決策を提案する。
対面音声アソシエーションを強化するために、対照的な学習に基づく連鎖クラスタ法に焦点を当てている。
言語が対面音声の関連性に与える影響について検討した。
その結果,提案手法の優れた性能を示し,提案手法の堅牢性と有効性を検証した。
論文 参考訳(メタデータ) (2024-08-04T13:24:36Z) - SPA-SVC: Self-supervised Pitch Augmentation for Singing Voice Conversion [12.454955437047573]
歌声変換(SPA-SVC)のための自己教師付きピッチ拡張法を提案する。
サイクルピッチシフトトレーニング戦略と構造類似度指数(SSIM)の損失をSVCモデルに導入し,その性能を効果的に向上する。
歌唱データセットM4Singerの実験結果から,提案手法はモデル性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-06-09T08:34:01Z) - DuDGAN: Improving Class-Conditional GANs via Dual-Diffusion [2.458437232470188]
GAN(Generative Adversarial Network)を用いたクラス条件画像生成について,様々な手法を用いて検討した。
本稿では,DuDGANと呼ばれる2次元拡散型ノイズ注入法を取り入れたGANを用いたクラス条件画像生成手法を提案する。
提案手法は,画像生成のための現状条件付きGANモデルよりも性能的に優れている。
論文 参考訳(メタデータ) (2023-05-24T07:59:44Z) - A Comparison of Semi-Supervised Learning Techniques for Streaming ASR at
Scale [64.10124092250126]
大規模ラベル付きコーパスの欠如により、ASRの性能向上のための主流の手法として、アンペアテキストとオーディオインジェクションが出現している。
本研究では,未ペアテキストと音声の両方を含む最先端の3つの半教師手法と,それらの組み合わせを制御された環境で比較する。
我々の設定では、これらの手法は、末尾語WERの大幅な向上、推論時のデコーダ計算、格子密度など、生のWERを超える多くの改善を提供する。
論文 参考訳(メタデータ) (2023-04-19T18:09:27Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - On Higher Adversarial Susceptibility of Contrastive Self-Supervised
Learning [104.00264962878956]
コントラスト型自己教師学習(CSL)は,画像と映像の分類において,教師あり学習のパフォーマンスに適合するか上回っている。
2つの学習パラダイムによって誘導される表現の性質が似ているかどうかは、いまだに不明である。
我々は,CSL表現空間における単位超球面上のデータ表現の均一分布を,この現象の鍵となる要因として同定する。
CSLトレーニングでモデルロバスト性を改善するのにシンプルだが有効である戦略を考案する。
論文 参考訳(メタデータ) (2022-07-22T03:49:50Z) - SingAug: Data Augmentation for Singing Voice Synthesis with
Cycle-consistent Training Strategy [69.24683717901262]
深層学習に基づく歌唱音声合成システム(SVS)は、より優れた品質の歌唱を柔軟に生成することが実証されている。
本研究では,SVSシステムのトレーニングを促進するために,さまざまなデータ拡張手法について検討する。
トレーニングをさらに安定させるために,サイクル一貫性トレーニング戦略を導入する。
論文 参考訳(メタデータ) (2022-03-31T12:50:10Z) - StarGAN-VC+ASR: StarGAN-based Non-Parallel Voice Conversion Regularized
by Automatic Speech Recognition [23.75478998795749]
モデル学習を支援するために自動音声認識を提案する。
本稿では,提案手法を用いることで,Vanilla StarGAN-VCよりも言語情報を保持できることを示す。
論文 参考訳(メタデータ) (2021-08-10T01:18:31Z) - StarGAN-based Emotional Voice Conversion for Japanese Phrases [21.744944745205416]
本稿では,基本周波数と周期処理を最小限とするECVタスクへのStarGAN-VCの直接適用について述べる。
日本語句のECVを実現する能力の観点から,StarGAN-EVCシステムの性能評価を行った。
論文 参考訳(メタデータ) (2021-04-05T08:08:42Z) - Training GANs with Stronger Augmentations via Contrastive Discriminator [80.8216679195]
本稿では,gan判別器にコントラスト表現学習方式を導入する。
この「融合」により、識別者は訓練の不安定さを増すことなく、より強力な増強に対処できる。
実験の結果,contratd付きganはfidを一貫して改善し,データ拡張を組み込んだ他の手法と比較した。
論文 参考訳(メタデータ) (2021-03-17T16:04:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。