論文の概要: Generating Diverse Vocal Bursts with StyleGAN2 and MEL-Spectrograms
- arxiv url: http://arxiv.org/abs/2206.12563v1
- Date: Sat, 25 Jun 2022 05:39:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-28 17:21:10.098264
- Title: Generating Diverse Vocal Bursts with StyleGAN2 and MEL-Spectrograms
- Title(参考訳): StyleGAN2 と MEL-Spectrogram を用いた声帯異方性バーストの生成
- Authors: Marco Jiralerspong and Gauthier Gidel
- Abstract要約: ICML表現音声化コンペティションにおける感情的発声タスク(ExVo Generate)に対するアプローチについて述べる。
我々は,事前処理したオーディオサンプルのメルスペクトルに基づいて,条件付きスタイルGAN2アーキテクチャを訓練する。
モデルによって生成されたメル-スペクトログラムは、オーディオ領域に逆戻りされる。
- 参考スコア(独自算出の注目度): 14.046451550358427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We describe our approach for the generative emotional vocal burst task (ExVo
Generate) of the ICML Expressive Vocalizations Competition. We train a
conditional StyleGAN2 architecture on mel-spectrograms of preprocessed versions
of the audio samples. The mel-spectrograms generated by the model are then
inverted back to the audio domain. As a result, our generated samples
substantially improve upon the baseline provided by the competition from a
qualitative and quantitative perspective for all emotions. More precisely, even
for our worst-performing emotion (awe), we obtain an FAD of 1.76 compared to
the baseline of 4.81 (as a reference, the FAD between the train/validation sets
for awe is 0.776).
- Abstract(参考訳): 本稿では,icml表現発声競争における生成的感情発声タスク(exvo生成)に対するアプローチについて述べる。
条件付きstylegan2アーキテクチャを事前処理されたオーディオサンプルのメルスペクトログラム上にトレーニングする。
モデルによって生成されたメルスペクトルは、オーディオ領域に戻される。
その結果,すべての感情の質的,定量的な観点で比較した結果,生成したサンプルのベースラインが大幅に向上した。
より正確には、最悪のパフォーマンスの感情(awe)であっても、ベースラインである4.81と比較してFADが1.76である(参考として、aweの列車/検証セット間のFADは0.776)。
関連論文リスト
- Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。
本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。
実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-06-01T06:40:22Z) - StyleSinger: Style Transfer for Out-of-Domain Singing Voice Synthesis [63.18764165357298]
ドメイン外歌唱音声合成(SVS)のためのスタイル転送は、目に見えないスタイルで高品質な歌唱音声を生成することに焦点を当てている。
StyleSingerは、ドメイン外参照音声サンプルのゼロショットスタイル転送のための最初の歌声合成モデルである。
ゼロショット・スタイル・トランスファーにおける評価は、StyleSingerが基準歌唱音声サンプルの音質と類似性の両方でベースライン・モデルより優れていることを不確実に証明している。
論文 参考訳(メタデータ) (2023-12-17T15:26:16Z) - Diff-HierVC: Diffusion-based Hierarchical Voice Conversion with Robust
Pitch Generation and Masked Prior for Zero-shot Speaker Adaptation [41.98697872087318]
2つの拡散モデルに基づく階層型VCシステムであるDiff-HierVCを紹介する。
我々のモデルは、ゼロショットVCシナリオにおいて、0.83%のCERと3.29%のEERを達成する。
論文 参考訳(メタデータ) (2023-11-08T14:02:53Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - SpeechBlender: Speech Augmentation Framework for Mispronunciation Data
Generation [11.91301106502376]
SpeechBlenderは、誤発音エラーを生成するためのきめ細かいデータ拡張パイプラインである。
提案手法は, ASR 依存型誤発音検出モデルにおいて, Speechocean762 を用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2022-11-02T07:13:30Z) - Proceedings of the ICML 2022 Expressive Vocalizations Workshop and
Competition: Recognizing, Generating, and Personalizing Vocal Bursts [28.585851793516873]
ExVo 2022には1,702人の話者による59,201人の声の大規模なデータセットを使用した3つの競合トラックが含まれていた。
最初のExVo-MultiTaskは、参加者が声のバーストから表現された感情や人口特性を認識するためにマルチタスクモデルをトレーニングする必要がある。
第2のExVo-Generateは、参加者が10種類の感情を伝達する声のバーストを生成する生成モデルを訓練する必要がある。
論文 参考訳(メタデータ) (2022-07-14T14:30:34Z) - The ICML 2022 Expressive Vocalizations Workshop and Competition:
Recognizing, Generating, and Personalizing Vocal Bursts [28.585851793516873]
ExVo 2022には,1,702人の話者による59,201人の音声データセットを使用した,3つの競合トラックが含まれている。
本稿では,3つのトラックについて述べるとともに,最先端の機械学習戦略を用いたベースラインモデルの性能評価を行う。
論文 参考訳(メタデータ) (2022-05-03T21:06:44Z) - WaveGrad 2: Iterative Refinement for Text-to-Speech Synthesis [80.60577805727624]
WaveGrad 2は音声合成のための非自己回帰生成モデルである。
最先端のニューラルTSシステムの性能に近づき、高忠実度オーディオを生成することができる。
論文 参考訳(メタデータ) (2021-06-17T17:09:21Z) - HiFiSinger: Towards High-Fidelity Neural Singing Voice Synthesis [153.48507947322886]
HiFiSingerは、高忠実な歌声に対するSVSシステムである。
FastSpeechベースの音響モデルとParallel WaveGANベースのボコーダで構成されている。
実験の結果,HiFiSingerは高品質な歌声を合成することがわかった。
論文 参考訳(メタデータ) (2020-09-03T16:31:02Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。