論文の概要: SingAug: Data Augmentation for Singing Voice Synthesis with
Cycle-consistent Training Strategy
- arxiv url: http://arxiv.org/abs/2203.17001v1
- Date: Thu, 31 Mar 2022 12:50:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-01 16:51:21.673066
- Title: SingAug: Data Augmentation for Singing Voice Synthesis with
Cycle-consistent Training Strategy
- Title(参考訳): SingAug:Cycle-Consistent Training Strategyを用いた歌声合成のためのデータ強化
- Authors: Shuai Guo, Jiatong Shi, Tao Qian, Shinji Watanabe, Qin Jin
- Abstract要約: 深層学習に基づく歌唱音声合成システム(SVS)は、より優れた品質の歌唱を柔軟に生成することが実証されている。
本研究では,SVSシステムのトレーニングを促進するために,さまざまなデータ拡張手法について検討する。
トレーニングをさらに安定させるために,サイクル一貫性トレーニング戦略を導入する。
- 参考スコア(独自算出の注目度): 69.24683717901262
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Deep learning based singing voice synthesis (SVS) systems have been
demonstrated to flexibly generate singing with better qualities, compared to
conventional statistical parametric based methods. However, neural systems are
generally data-hungry and have difficulty to reach reasonable singing quality
with limited public available training data. In this work, we explore different
data augmentation methods to boost the training of SVS systems, including
several strategies customized to SVS based on pitch augmentation and mix-up
augmentation. To further stabilize the training, we introduce the
cycle-consistent training strategy. Extensive experiments on two public singing
databases demonstrate that our proposed augmentation methods and the
stabilizing training strategy can significantly improve the performance on both
objective and subjective evaluations.
- Abstract(参考訳): 深層学習に基づく歌声合成 (svs) システムは, 従来の統計パラメトリック法に比べ, 柔軟に高い品質で歌声を生成することが実証されている。
しかし、ニューラルシステムは一般的にデータに飢えており、限られた公開トレーニングデータで適切な歌声の質に到達するのが困難である。
本研究では,SVSにカスタマイズされたいくつかの戦略を含む,SVSシステムのトレーニングを促進するための異なるデータ拡張手法について検討する。
トレーニングをさらに安定させるために,サイクル一貫性トレーニング戦略を導入する。
2つの歌唱データベースに関する広範囲な実験により,提案手法と安定化訓練戦略が,客観的評価と主観評価の両方において有意な性能向上をもたらすことが示された。
関連論文リスト
- MakeSinger: A Semi-Supervised Training Method for Data-Efficient Singing Voice Synthesis via Classifier-free Diffusion Guidance [14.22941848955693]
MakeSingerは、音声合成のための半教師付き訓練方法である。
我々の新しい二重誘導機構は、逆拡散ステップに関するテキストとピッチのガイダンスを与える。
トレーニング中にテキスト・トゥ・スペーチ(TTS)データを追加することで,TTS話者の歌声を歌声なしで合成できることを実証した。
論文 参考訳(メタデータ) (2024-06-10T01:47:52Z) - SPA-SVC: Self-supervised Pitch Augmentation for Singing Voice Conversion [12.454955437047573]
歌声変換(SPA-SVC)のための自己教師付きピッチ拡張法を提案する。
サイクルピッチシフトトレーニング戦略と構造類似度指数(SSIM)の損失をSVCモデルに導入し,その性能を効果的に向上する。
歌唱データセットM4Singerの実験結果から,提案手法はモデル性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-06-09T08:34:01Z) - Contrastive-Adversarial and Diffusion: Exploring pre-training and fine-tuning strategies for sulcal identification [3.0398616939692777]
対人学習、コントラスト学習、拡散認知学習、通常の再構成学習といった技術が標準となっている。
この研究は、ニューラルネットワークの学習プロセスを強化するために、事前学習技術と微調整戦略の利点を解明することを目的としている。
論文 参考訳(メタデータ) (2024-05-29T15:44:51Z) - SmurfCat at SemEval-2024 Task 6: Leveraging Synthetic Data for Hallucination Detection [51.99159169107426]
本稿では,SemEval-2024幻覚検出タスクのための新しいシステムを提案する。
我々の調査は、モデル予測と基準基準を比較するための様々な戦略にまたがっている。
強力なパフォーマンス指標を示す3つの異なる方法を紹介します。
論文 参考訳(メタデータ) (2024-04-09T09:03:44Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - Weighted Ensemble Self-Supervised Learning [67.24482854208783]
組み立ては、モデルパフォーマンスを高めるための強力なテクニックであることが証明されている。
我々は,データ依存型重み付きクロスエントロピー損失を許容するフレームワークを開発した。
提案手法は、ImageNet-1K上での複数の評価指標において、両者に優れる。
論文 参考訳(メタデータ) (2022-11-18T02:00:17Z) - Efficient and Effective Augmentation Strategy for Adversarial Training [48.735220353660324]
ディープニューラルネットワークの敵対的トレーニングは、標準トレーニングよりもはるかにデータ処理が難しいことが知られている。
本稿では,DAJAT(Diverse Augmentation-based Joint Adversarial Training)を提案する。
論文 参考訳(メタデータ) (2022-10-27T10:59:55Z) - Improving GANs with A Dynamic Discriminator [106.54552336711997]
我々は、オンザフライで調整可能な判別器は、そのような時間変化に適応できると論じる。
総合的な実証研究により、提案したトレーニング戦略がDynamicDと呼ばれ、追加のコストやトレーニング目標を発生させることなく、合成性能を向上させることが確認された。
論文 参考訳(メタデータ) (2022-09-20T17:57:33Z) - Boost AI Power: Data Augmentation Strategies with unlabelled Data and
Conformal Prediction, a Case in Alternative Herbal Medicine Discrimination
with Electronic Nose [12.31253329379136]
電子鼻は代替医療の分類において有効であることが証明されているが、教師付き学習コストの性質のため、従来の研究はラベル付きトレーニングデータに依存していた。
本研究は,データ拡張戦略を用いて分類精度を向上させることを目的とする。
論文 参考訳(メタデータ) (2021-02-05T10:25:36Z) - Distributed Training of Deep Neural Network Acoustic Models for
Automatic Speech Recognition [33.032361181388886]
ASRのためのディープニューラルネットワーク音響モデルのための分散トレーニング手法の概要について述べる。
提案手法の収束, 高速化, 認識性能を調べるために, 一般のベンチマークで実験を行った。
論文 参考訳(メタデータ) (2020-02-24T19:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。