論文の概要: Conditional variational autoencoder to improve neural audio synthesis
for polyphonic music sound
- arxiv url: http://arxiv.org/abs/2211.08715v1
- Date: Wed, 16 Nov 2022 07:11:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 17:01:05.779737
- Title: Conditional variational autoencoder to improve neural audio synthesis
for polyphonic music sound
- Title(参考訳): ポリフォニック音楽音声のニューラル音声合成改善のための条件変分オートエンコーダ
- Authors: Seokjin Lee, Minhan Kim, Seunghyeon Shin, Daeho Lee, Inseon Jang, and
Wootaek Lim
- Abstract要約: 高品質な音声波形合成のためのリアルタイムオーディオ変分オートエンコーダ (RAVE) 法を開発した。
本研究では,条件付き変分オートエンコーダ構造と完全連結層を付加した拡張RAVEモデルを提案する。
提案モデルでは従来のRAVEモデルよりも性能と安定性が向上した。
- 参考スコア(独自算出の注目度): 4.002298833349517
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Deep generative models for audio synthesis have recently been significantly
improved. However, the task of modeling raw-waveforms remains a difficult
problem, especially for audio waveforms and music signals. Recently, the
realtime audio variational autoencoder (RAVE) method was developed for
high-quality audio waveform synthesis. The RAVE method is based on the
variational autoencoder and utilizes the two-stage training strategy.
Unfortunately, the RAVE model is limited in reproducing wide-pitch polyphonic
music sound. Therefore, to enhance the reconstruction performance, we adopt the
pitch activation data as an auxiliary information to the RAVE model. To handle
the auxiliary information, we propose an enhanced RAVE model with a conditional
variational autoencoder structure and an additional fully-connected layer. To
evaluate the proposed structure, we conducted a listening experiment based on
multiple stimulus tests with hidden references and an anchor (MUSHRA) with the
MAESTRO. The obtained results indicate that the proposed model exhibits a more
significant performance and stability improvement than the conventional RAVE
model.
- Abstract(参考訳): 音声合成のための深い生成モデルは最近大幅に改善されている。
しかし、生波形をモデル化する作業は、特に音声波形や音楽信号において難しい問題である。
近年,高品質な音声波形合成のためのリアルタイムオーディオ変分オートエンコーダ (RAVE) 法が開発されている。
RAVE法は変分オートエンコーダに基づいて,2段階のトレーニング戦略を利用する。
残念ながら、RAVEモデルは広ピッチのポリフォニック音楽の再生に限られている。
そこで, 復元性能を向上させるために, ピッチ活性化データをraveモデルの補助情報として採用する。
補助情報を扱うために,条件付き変分オートエンコーダ構造と完全連結層を付加した拡張RAVEモデルを提案する。
提案した構造を評価するために,隠れ参照を用いた複数刺激試験と,MAESTROを用いたアンカー(MUSHRA)による聴取実験を行った。
その結果,提案モデルは従来のraveモデルよりも高い性能と安定性が得られた。
関連論文リスト
- Model and Deep learning based Dynamic Range Compression Inversion [12.002024727237837]
DRCの反転は、元のダイナミクスを復元し、新しいミックスを生成したり、オーディオ信号の全体的な品質を改善するのに役立つ。
DRCインバージョンのためのニューラルネットワークを用いたモデルベースアプローチを提案する。
その結果,提案手法の有効性とロバスト性について,いくつかの最先端手法と比較した。
論文 参考訳(メタデータ) (2024-11-07T00:33:07Z) - SpecDiff-GAN: A Spectrally-Shaped Noise Diffusion GAN for Speech and
Music Synthesis [0.0]
本稿では,HiFi-GANに基づくニューラルボコーダSpecDiff-GANを紹介する。
いくつかのデータセットに対して,提案モデルによる音声合成と音楽合成の利点を示す。
論文 参考訳(メタデータ) (2024-01-30T09:17:57Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - An investigation of the reconstruction capacity of stacked convolutional
autoencoders for log-mel-spectrograms [2.3204178451683264]
音声処理アプリケーションでは、ハイレベルな表現に基づく表現力のある音声の生成は、高い需要を示す。
ニューラルネットワークのような現代のアルゴリズムは、楽器の圧縮に基づく表現型シンセサイザーの開発にインスピレーションを与えている。
本研究では,多種多様な楽器に対する時間周波数音声表現の圧縮のための畳み込み畳み込みオートエンコーダについて検討した。
論文 参考訳(メタデータ) (2023-01-18T17:19:04Z) - Synthetic Wave-Geometric Impulse Responses for Improved Speech
Dereverberation [69.1351513309953]
室内インパルス応答 (RIR) の低周波成分を正確にシミュレートすることが, 良好な脱ヴァーベレーションを実現する上で重要であることを示す。
本研究では, ハイブリッド合成RIRで訓練された音声残響モデルが, 従来の幾何線トレーシング法により学習されたRIRで訓練されたモデルよりも優れていたことを示す。
論文 参考訳(メタデータ) (2022-12-10T20:15:23Z) - RAVE: A variational autoencoder for fast and high-quality neural audio
synthesis [2.28438857884398]
本稿では,高速かつ高品質な音声波形合成が可能なリアルタイムオーディオ変分自動エンコーダ(RAVE)を提案する。
我々のモデルは48kHzのオーディオ信号を生成できる最初のモデルであり、同時に標準のラップトップCPU上で20倍高速に動作可能であることを示す。
論文 参考訳(メタデータ) (2021-11-09T09:07:30Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z) - WaveGrad 2: Iterative Refinement for Text-to-Speech Synthesis [80.60577805727624]
WaveGrad 2は音声合成のための非自己回帰生成モデルである。
最先端のニューラルTSシステムの性能に近づき、高忠実度オーディオを生成することができる。
論文 参考訳(メタデータ) (2021-06-17T17:09:21Z) - Real Time Speech Enhancement in the Waveform Domain [99.02180506016721]
本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。
提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。
静止ノイズや非定常ノイズを含む様々な背景ノイズを除去することができる。
論文 参考訳(メタデータ) (2020-06-23T09:19:13Z) - VaPar Synth -- A Variational Parametric Model for Audio Synthesis [78.3405844354125]
本稿では,条件付き変分オートエンコーダ(CVAE)を用いた変分パラメトリックシンセサイザVaPar Synthを提案する。
提案するモデルの性能は,ピッチを柔軟に制御した楽器音の再構成と生成によって実証する。
論文 参考訳(メタデータ) (2020-03-30T16:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。