論文の概要: Exploring Quality and Generalizability in Parameterized Neural Audio
Effects
- arxiv url: http://arxiv.org/abs/2006.05584v1
- Date: Wed, 10 Jun 2020 00:52:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 06:36:55.043919
- Title: Exploring Quality and Generalizability in Parameterized Neural Audio
Effects
- Title(参考訳): パラメータ化ニューラルオーディオ効果の探索と一般化可能性
- Authors: William Mitchell, Scott H. Hawley
- Abstract要約: ディープニューラルネットワークは、音楽オーディオ信号処理アプリケーションへの期待を示している。
これまでの結果は、低サンプリング率、ノイズ、信号タイプの狭い領域、および/またはパラメータ化制御の欠如によって制約される傾向にあった。
本研究は、非線形時間依存信号処理効果のモデル化に関する先行研究を拡大する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks have shown promise for music audio signal processing
applications, often surpassing prior approaches, particularly as end-to-end
models in the waveform domain. Yet results to date have tended to be
constrained by low sample rates, noise, narrow domains of signal types, and/or
lack of parameterized controls (i.e. "knobs"), making their suitability for
professional audio engineering workflows still lacking. This work expands on
prior research published on modeling nonlinear time-dependent signal processing
effects associated with music production by means of a deep neural network, one
which includes the ability to emulate the parameterized settings you would see
on an analog piece of equipment, with the goal of eventually producing
commercially viable, high quality audio, i.e. 44.1 kHz sampling rate at 16-bit
resolution. The results in this paper highlight progress in modeling these
effects through architecture and optimization changes, towards increasing
computational efficiency, lowering signal-to-noise ratio, and extending to a
larger variety of nonlinear audio effects. Toward these ends, the strategies
employed involved a three-pronged approach: model speed, model accuracy, and
model generalizability. Most of the presented methods provide marginal or no
increase in output accuracy over the original model, with the exception of
dataset manipulation. We found that limiting the audio content of the dataset,
for example using datasets of just a single instrument, provided a significant
improvement in model accuracy over models trained on more general datasets.
- Abstract(参考訳): ディープニューラルネットワークは、特に波形領域のエンド・ツー・エンドモデルのように、しばしば以前のアプローチを超える音楽オーディオ信号処理アプリケーションへの期待を示している。
しかし、これまでの結果は低いサンプルレート、ノイズ、信号タイプの狭い領域、パラメータ化制御の欠如(すなわち「ノブ」)によって制約される傾向にあり、プロのオーディオエンジニアリングワークフローにはまだ適していない。
この研究は、ディープニューラルネットワークを用いて音楽制作に関連する非線形時間依存信号処理効果をモデル化する以前の研究を拡大しており、これはアナログ機器で見られるパラメータ化設定をエミュレートする機能を含み、最終的には商業的に実行可能な高品質オーディオ、すなわち16ビット解像度で44.1kHzサンプリングレートを生産することを目的としている。
本稿では,これらの効果をアーキテクチャや最適化によってモデル化し,計算効率の向上,信号対雑音比の低減,さらに様々な非線形音響効果にまで拡張する方法について述べる。
これらの目的のために採用される戦略は、モデル速度、モデルの正確性、モデルの一般化可能性という3つのアプローチであった。
提案手法のほとんどは、データセット操作を除いて、元のモデルよりも出力精度が限界あるいはゼロに向上する。
データセットのオーディオ内容の制限、例えば1つの楽器のデータセットの使用は、より一般的なデータセットでトレーニングされたモデルよりも、モデルの精度が大幅に向上することを発見した。
関連論文リスト
- Comparative Study of State-based Neural Networks for Virtual Analog Audio Effects Modeling [0.0]
本稿では,仮想アナログモデリングにおける機械学習の応用について考察する。
我々は、ステートスペースモデルと線形リカレントユニットを、より一般的なLong Short-Term Memoryネットワークと比較する。
論文 参考訳(メタデータ) (2024-05-07T08:47:40Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Diffusion Models for Audio Restoration [22.385385150594185]
本稿では拡散モデルに基づく音声復元アルゴリズムを提案する。
拡散モデルは両世界の長所を組み合わせることができ、オーディオ復元アルゴリズムを設計する機会を提供する。
拡散形式とそのクリーンな音声信号の条件付き生成への応用について説明する。
論文 参考訳(メタデータ) (2024-02-15T09:36:36Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - Boosting Fast and High-Quality Speech Synthesis with Linear Diffusion [85.54515118077825]
本稿では, 常微分方程式に基づく線形拡散モデル(LinDiff)を提案する。
計算複雑性を低減するため、LinDiffでは、入力信号を小さなパッチに分割するパッチベースの処理アプローチを採用している。
我々のモデルは、より高速な合成速度で自己回帰モデルに匹敵する品質の音声を合成することができる。
論文 参考訳(メタデータ) (2023-06-09T07:02:43Z) - RAVE: A variational autoencoder for fast and high-quality neural audio
synthesis [2.28438857884398]
本稿では,高速かつ高品質な音声波形合成が可能なリアルタイムオーディオ変分自動エンコーダ(RAVE)を提案する。
我々のモデルは48kHzのオーディオ信号を生成できる最初のモデルであり、同時に標準のラップトップCPU上で20倍高速に動作可能であることを示す。
論文 参考訳(メタデータ) (2021-11-09T09:07:30Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z) - WaveGrad: Estimating Gradients for Waveform Generation [55.405580817560754]
WaveGradは、データ密度の勾配を推定する波形生成の条件モデルである。
ガウスのホワイトノイズ信号から始まり、メル・スペクトログラムに条件付けされた勾配に基づくサンプリング器を通じて繰り返し信号の精製を行う。
6回の反復で高忠実度音声サンプルを生成できることが判明した。
論文 参考訳(メタデータ) (2020-09-02T17:44:10Z) - Real Time Speech Enhancement in the Waveform Domain [99.02180506016721]
本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。
提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。
静止ノイズや非定常ノイズを含む様々な背景ノイズを除去することができる。
論文 参考訳(メタデータ) (2020-06-23T09:19:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。