論文の概要: Comparative Study of Recurrent Neural Networks for Virtual Analog Audio Effects Modeling
- arxiv url: http://arxiv.org/abs/2405.04124v2
- Date: Wed, 8 May 2024 10:35:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-09 13:25:23.599816
- Title: Comparative Study of Recurrent Neural Networks for Virtual Analog Audio Effects Modeling
- Title(参考訳): 仮想アナログ音響効果モデリングのためのリカレントニューラルネットワークの比較検討
- Authors: Riccardo Simionato, Stefano Fasciani,
- Abstract要約: 仮想アナログモデリングにおける機械学習の応用について検討する。
我々は、ステートスペースモデルと線形リカレントユニットを、より一般的なLong Short Term Memoryネットワークと比較する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Analog electronic circuits are at the core of an important category of musical devices. The nonlinear features of their electronic components give analog musical devices a distinctive timbre and sound quality, making them highly desirable. Artificial neural networks have rapidly gained popularity for the emulation of analog audio effects circuits, particularly recurrent networks. While neural approaches have been successful in accurately modeling distortion circuits, they require architectural improvements that account for parameter conditioning and low latency response. In this article, we explore the application of recent machine learning advancements for virtual analog modeling. We compare State Space models and Linear Recurrent Units against the more common Long Short Term Memory networks. These have shown promising ability in sequence to sequence modeling tasks, showing a notable improvement in signal history encoding. Our comparative study uses these black box neural modeling techniques with a variety of audio effects. We evaluate the performance and limitations using multiple metrics aiming to assess the models' ability to accurately replicate energy envelopes, frequency contents, and transients in the audio signal. To incorporate control parameters we employ the Feature wise Linear Modulation method. Long Short Term Memory networks exhibit better accuracy in emulating distortions and equalizers, while the State Space model, followed by Long Short Term Memory networks when integrated in an encoder decoder structure, outperforms others in emulating saturation and compression. When considering long time variant characteristics, the State Space model demonstrates the greatest accuracy. The Long Short Term Memory and, in particular, Linear Recurrent Unit networks present more tendency to introduce audio artifacts.
- Abstract(参考訳): アナログ電子回路は、音楽機器の重要なカテゴリの中核にある。
電子部品の非線形特性は、アナログ音楽機器に独特の音色と音質を与え、非常に好ましい。
人工ニューラルネットワークは、アナログオーディオ効果回路、特にリカレントネットワークのエミュレーションで急速に人気を集めている。
ニューラルネットワークは歪み回路を正確にモデル化することに成功したが、パラメータ条件付けと低レイテンシ応答を考慮したアーキテクチャの改善が必要である。
本稿では,最近の機械学習の仮想アナログモデリングへの応用について検討する。
我々は、ステートスペースモデルと線形リカレントユニットを、より一般的なLong Short Term Memoryネットワークと比較する。
これらはシーケンス・ツー・シーケンス・モデリングのタスクにおいて有望な能力を示し、信号履歴符号化の顕著な改善を示している。
我々の比較研究は、様々な音響効果を持つブラックボックスニューラルモデリング技術を用いている。
音響信号のエネルギー包絡、周波数内容、過渡性を正確に再現するモデルの能力を評価するために、複数の指標を用いて性能と限界を評価する。
制御パラメータを組み込むには、Feature wise Linear Modulation法を用いる。
長期記憶ネットワークは歪みや等化器のエミュレートにおいて精度が向上し、ステートスペースモデルはエンコーダデコーダ構造に統合された場合の長期記憶ネットワークに続き、飽和や圧縮のエミュレーションにおいて他より優れる。
長期間の変動特性を考慮すると、状態空間モデルは最大の精度を示す。
長期記憶(Long Short Term Memory)、特にリニア・リカレント・ユニット・ネットワーク(Linear Recurrent Unit Network)は、オーディオ・アーティファクトを導入する傾向がある。
関連論文リスト
- From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - Differentiable Grey-box Modelling of Phaser Effects using Frame-based
Spectral Processing [21.053861381437827]
本研究は位相効果をモデル化するデジタル信号処理手法を提案する。
提案モデルでは,周波数領域に時間変化フィルタを実装するために,短いフレームで音声を処理する。
このモデルでは、解釈可能なパラメータと調整可能なパラメータを保持しながら、アナログ参照デバイスをエミュレートするように訓練できることが示される。
論文 参考訳(メタデータ) (2023-06-02T07:53:41Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - FastLTS: Non-Autoregressive End-to-End Unconstrained Lip-to-Speech
Synthesis [77.06890315052563]
我々は、低レイテンシで非拘束音声から高品質な音声を直接合成できる非自己回帰的エンドツーエンドモデルであるFastLTSを提案する。
実験により,本モデルは3秒の入力シーケンスにおける現在の自己回帰モデルと比較して,音声生成の19.76倍の高速化を実現していることがわかった。
論文 参考訳(メタデータ) (2022-07-08T10:10:39Z) - RAVE: A variational autoencoder for fast and high-quality neural audio
synthesis [2.28438857884398]
本稿では,高速かつ高品質な音声波形合成が可能なリアルタイムオーディオ変分自動エンコーダ(RAVE)を提案する。
我々のモデルは48kHzのオーディオ信号を生成できる最初のモデルであり、同時に標準のラップトップCPU上で20倍高速に動作可能であることを示す。
論文 参考訳(メタデータ) (2021-11-09T09:07:30Z) - Neural Waveshaping Synthesis [0.0]
ニューラルオーディオ合成に対する,新しい,軽量で完全な因果的アプローチを提案する。
ニューラルウェーブシェイピングユニット(NEWT)は、波形領域で直接動作する。
入力信号と出力信号の単純なアフィン変換によって複雑な鼓膜進化を生成する。
論文 参考訳(メタデータ) (2021-07-11T13:50:59Z) - SignalNet: A Low Resolution Sinusoid Decomposition and Estimation
Network [79.04274563889548]
本稿では,正弦波数を検出するニューラルネットワークアーキテクチャであるSignalNetを提案する。
基礎となるデータ分布と比較して,ネットワークの結果を比較するための最悪の学習しきい値を導入する。
シミュレーションでは、我々のアルゴリズムは常に3ビットデータのしきい値を超えることができるが、しばしば1ビットデータのしきい値を超えることはできない。
論文 参考訳(メタデータ) (2021-06-10T04:21:20Z) - Deep Convolutional and Recurrent Networks for Polyphonic Instrument
Classification from Monophonic Raw Audio Waveforms [30.3491261167433]
サウンドイベント検出とオーディオ分類タスクは、伝統的にスペクトログラムなどのオーディオ信号の時間周波数表現を通じて対処されます。
効率的な特徴抽出器としてのディープニューラルネットワークは、分類目的にオーディオ信号を直接使用可能にする。
生の波形を深層学習モデルに入力するだけで,ポリフォニック・オーディオで楽器を認識する。
論文 参考訳(メタデータ) (2021-02-13T13:44:46Z) - Real Time Speech Enhancement in the Waveform Domain [99.02180506016721]
本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。
提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。
静止ノイズや非定常ノイズを含む様々な背景ノイズを除去することができる。
論文 参考訳(メタデータ) (2020-06-23T09:19:13Z) - Exploring Quality and Generalizability in Parameterized Neural Audio
Effects [0.0]
ディープニューラルネットワークは、音楽オーディオ信号処理アプリケーションへの期待を示している。
これまでの結果は、低サンプリング率、ノイズ、信号タイプの狭い領域、および/またはパラメータ化制御の欠如によって制約される傾向にあった。
本研究は、非線形時間依存信号処理効果のモデル化に関する先行研究を拡大する。
論文 参考訳(メタデータ) (2020-06-10T00:52:08Z) - VaPar Synth -- A Variational Parametric Model for Audio Synthesis [78.3405844354125]
本稿では,条件付き変分オートエンコーダ(CVAE)を用いた変分パラメトリックシンセサイザVaPar Synthを提案する。
提案するモデルの性能は,ピッチを柔軟に制御した楽器音の再構成と生成によって実証する。
論文 参考訳(メタデータ) (2020-03-30T16:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。