論文の概要: Mel-spectrogram augmentation for sequence to sequence voice conversion
- arxiv url: http://arxiv.org/abs/2001.01401v2
- Date: Mon, 15 Jun 2020 09:39:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-14 02:09:40.615872
- Title: Mel-spectrogram augmentation for sequence to sequence voice conversion
- Title(参考訳): mel-spectrogram法によるシーケンス音声変換の検討
- Authors: Yeongtae Hwang, Hyemin Cho, Hongsun Yang, Dong-Ok Won, Insoo Oh, and
Seong-Whan Lee
- Abstract要約: 本研究は,Mel-spectrogram augmentationが連続連続音声変換モデルの訓練に及ぼす影響を実験的に検討した。
実験の結果,時間軸整合に基づくポリシ(時間長制御と時間整合)は,他のポリシよりも優れた性能を示した。
- 参考スコア(独自算出の注目度): 14.238947772493479
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For training the sequence-to-sequence voice conversion model, we need to
handle an issue of insufficient data about the number of speech pairs which
consist of the same utterance. This study experimentally investigated the
effects of Mel-spectrogram augmentation on training the sequence-to-sequence
voice conversion (VC) model from scratch. For Mel-spectrogram augmentation, we
adopted the policies proposed in SpecAugment. In addition, we proposed new
policies (i.e., frequency warping, loudness and time length control) for more
data variations. Moreover, to find the appropriate hyperparameters of
augmentation policies without training the VC model, we proposed hyperparameter
search strategy and the new metric for reducing experimental cost, namely
deformation per deteriorating ratio. We compared the effect of these
Mel-spectrogram augmentation methods based on various sizes of training set and
augmentation policies. In the experimental results, the time axis warping based
policies (i.e., time length control and time warping.) showed better
performance than other policies. These results indicate that the use of the
Mel-spectrogram augmentation is more beneficial for training the VC model.
- Abstract(参考訳): シーケンス・ツー・シーケンス音声変換モデルの訓練には,同じ発話からなる音声ペア数に関する不十分なデータを扱う必要がある。
本研究は,Mel-spectrogram augmentationが連続音声変換(VC)モデルの訓練に与える影響を実験的に検討した。
メル・スペクトログラム増量にはSpecAugmentで提案されたポリシーを採用した。
さらに,より多くのデータ変動に対する新しいポリシー(周波数ゆがみ,ラウドネス,時間長制御)を提案した。
さらに,VCモデルを訓練せずに拡張ポリシーの適切なハイパーパラメータを求めるために,実験コスト,すなわち劣化率の変形を低減するためのハイパーパラメータ探索戦略と新しい指標を提案した。
これらのメル・スペクトログラム増倍法の効果を,トレーニングセットのサイズと増倍方針に基づいて比較した。
実験結果では, 時間軸ウォーピングに基づくポリシー(つまり, 時間長制御と時間ウォーピング)は, 他のポリシーよりも優れた性能を示した。
これらの結果から,Mel-spectrogram Augmentationの使用がVCモデルのトレーニングに有用であることが示唆された。
関連論文リスト
- Learning Augmentation Policies from A Model Zoo for Time Series Forecasting [58.66211334969299]
本稿では,強化学習に基づく学習可能なデータ拡張手法であるAutoTSAugを紹介する。
限界サンプルを学習可能なポリシーで強化することにより、AutoTSAugは予測性能を大幅に改善する。
論文 参考訳(メタデータ) (2024-09-10T07:34:19Z) - Inference Stage Denoising for Undersampled MRI Reconstruction [13.8086726938161]
磁気共鳴画像(MRI)データの再構成は、ディープラーニングによって肯定的な影響を受けている。
重要な課題は、トレーニングとテストデータ間の分散シフトへの一般化を改善することだ。
論文 参考訳(メタデータ) (2024-02-12T12:50:10Z) - Beyond Random Augmentations: Pretraining with Hard Views [40.88518237601708]
Hard View Pretraining (HVP)は、SSL事前トレーニング中にモデルをより難しく、より困難なサンプルに公開する学習不要の戦略である。
HVPは、100と300のエポック事前学習において、ImageNetの平均で1%の線形評価精度の向上を実現している。
論文 参考訳(メタデータ) (2023-10-05T23:09:19Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - Prompt Tuning of Deep Neural Networks for Speaker-adaptive Visual Speech Recognition [66.94463981654216]
話者適応型視覚音声認識(VSR)のためのディープニューラルネットワーク(DNN)の即時チューニング手法を提案する。
我々は、事前訓練されたモデルパラメータを変更する代わりに、ターゲット話者の適応データを微調整する。
提案手法の有効性を単語レベルのVSRデータベースと文レベルのVSRデータベースで評価した。
論文 参考訳(メタデータ) (2023-02-16T06:01:31Z) - Visual Transformers for Primates Classification and Covid Detection [8.747840760772268]
本研究では,注目機構を中心に構築された深層機械学習モデルである視覚変換器を生音声のメル・スペクトログラム表現に適用する。
メルベースのデータ拡張技術とサンプル重み付けを追加すると、ComParE21のPRSとCCSの課題に匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-12-20T09:10:25Z) - Voice2Series: Reprogramming Acoustic Models for Time Series
Classification [65.94154001167608]
Voice2Seriesは、時系列分類のための音響モデルをプログラムする新しいエンドツーエンドアプローチである。
V2Sは20のタスクで性能が優れるか、最先端のメソッドと結びついているかを示し、平均精度を1.84%向上させる。
論文 参考訳(メタデータ) (2021-06-17T07:59:15Z) - ParticleAugment: Sampling-Based Data Augmentation [80.44268663372233]
モデルトレーニング中に最適な拡張ポリシーとスケジュールを求めるために,粒子フィルタリングの定式化を提案する。
CIFAR-10, CIFAR-100, ImageNetデータセットにおいて, 自動拡張のための定式化が有望な結果に達することを示す。
論文 参考訳(メタデータ) (2021-06-16T10:56:02Z) - SapAugment: Learning A Sample Adaptive Policy for Data Augmentation [21.044266725115577]
本稿では,SapAugment のサンプル適応政策を学習するための新しい手法を提案する。
また,LbriSpeechデータセットにおける単語誤り率の21%を,最先端の音声強調法よりも大幅に改善した。
論文 参考訳(メタデータ) (2020-11-02T17:52:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。