論文の概要: Full-band General Audio Synthesis with Score-based Diffusion
- arxiv url: http://arxiv.org/abs/2210.14661v1
- Date: Wed, 26 Oct 2022 12:25:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-10-27 16:19:59.385242
- Title: Full-band General Audio Synthesis with Score-based Diffusion
- Title(参考訳): スコアベース拡散を用いた全帯域一般音声合成
- Authors: Santiago Pascual, Gautam Bhattacharya, Chunghsin Yeh, Jordi Pons, Joan
Serr\`a
- Abstract要約: 本稿では、波形領域における全帯域信号の終端を扱う一般音声合成のための拡散型生成モデルであるDAGを提案する。
その結果, DAGはラベル付きジェネレータよりも品質と多様性の両面で優れていることがわかった。
- 参考スコア(独自算出の注目度): 25.184771907613115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works have shown the capability of deep generative models to tackle
general audio synthesis from a single label, producing a variety of impulsive,
tonal, and environmental sounds. Such models operate on band-limited signals
and, as a result of an autoregressive approach, they are typically conformed by
pre-trained latent encoders and/or several cascaded modules. In this work, we
propose a diffusion-based generative model for general audio synthesis, named
DAG, which deals with full-band signals end-to-end in the waveform domain.
Results show the superiority of DAG over existing label-conditioned generators
in terms of both quality and diversity. More specifically, when compared to the
state of the art, the band-limited and full-band versions of DAG achieve
relative improvements that go up to 40 and 65%, respectively. We believe DAG is
flexible enough to accommodate different conditioning schemas while providing
good quality synthesis.
- Abstract(参考訳): 近年の研究では、単一のラベルから一般的な音声合成に取り組み、様々な衝動音、調音、環境音を生成する深層生成モデルの能力が示されている。
このようなモデルは帯域制限信号で動作し、自己回帰的なアプローチにより、通常、訓練済みの潜伏エンコーダやいくつかのカスケードモジュールで適合する。
本研究では,波形領域における全帯域信号の終端処理を行うDAGという一般音声合成のための拡散型生成モデルを提案する。
その結果, DAGはラベル付きジェネレータよりも品質と多様性の両面で優れていることがわかった。
より具体的には、現状と比較すると、バンド限定版とフルバンド版のdagはそれぞれ40と65%の相対的な改善を達成している。
DAGは、良質な合成を提供しながら、異なる条件付けスキーマに対応するのに十分な柔軟性があると考えています。
関連論文リスト
- SpecDiff-GAN: A Spectrally-Shaped Noise Diffusion GAN for Speech and
Music Synthesis [0.0]
本稿では,HiFi-GANに基づくニューラルボコーダSpecDiff-GANを紹介する。
いくつかのデータセットに対して,提案モデルによる音声合成と音楽合成の利点を示す。
論文 参考訳(メタデータ) (2024-01-30T09:17:57Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - BigVGAN: A Universal Neural Vocoder with Large-Scale Training [49.16254684584935]
ゼロショット設定において、様々な未知条件下でよく一般化する普遍的なボコーダであるBigVGANを提案する。
生成器に周期的非線形性とアンチエイリアス表現を導入し、波形に所望の帰納バイアスをもたらす。
我々はGANボコーダを最大1億2200万のパラメータで訓練する。
論文 参考訳(メタデータ) (2022-06-09T17:56:10Z) - RAVE: A variational autoencoder for fast and high-quality neural audio
synthesis [2.28438857884398]
本稿では,高速かつ高品質な音声波形合成が可能なリアルタイムオーディオ変分自動エンコーダ(RAVE)を提案する。
我々のモデルは48kHzのオーディオ信号を生成できる最初のモデルであり、同時に標準のラップトップCPU上で20倍高速に動作可能であることを示す。
論文 参考訳(メタデータ) (2021-11-09T09:07:30Z) - Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。
複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。
我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-30T22:44:12Z) - Conditioning Trick for Training Stable GANs [70.15099665710336]
本稿では,GANトレーニング中の不安定性問題に対応するため,ジェネレータネットワークに正規性から逸脱する条件付け手法を提案する。
我々は、生成元をシュア分解のスペクトル領域で計算された実サンプルの正規化関数から逸脱するように強制する。
論文 参考訳(メタデータ) (2020-10-12T16:50:22Z) - DiffWave: A Versatile Diffusion Model for Audio Synthesis [35.406438835268816]
DiffWaveは条件および非条件波形生成のための多目的拡散確率モデルである。
メルスペクトログラムに条件付けされたニューラル・ヴォイコーディングを含む、様々な波形生成タスクで高忠実なオーディオを生成する。
これは、非条件生成課題において、自己回帰およびGANベースの波形モデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2020-09-21T11:20:38Z) - WaveGrad: Estimating Gradients for Waveform Generation [55.405580817560754]
WaveGradは、データ密度の勾配を推定する波形生成の条件モデルである。
ガウスのホワイトノイズ信号から始まり、メル・スペクトログラムに条件付けされた勾配に基づくサンプリング器を通じて繰り返し信号の精製を行う。
6回の反復で高忠実度音声サンプルを生成できることが判明した。
論文 参考訳(メタデータ) (2020-09-02T17:44:10Z) - VaPar Synth -- A Variational Parametric Model for Audio Synthesis [78.3405844354125]
本稿では,条件付き変分オートエンコーダ(CVAE)を用いた変分パラメトリックシンセサイザVaPar Synthを提案する。
提案するモデルの性能は,ピッチを柔軟に制御した楽器音の再構成と生成によって実証する。
論文 参考訳(メタデータ) (2020-03-30T16:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。