論文の概要: Comparative Study of Recurrent Neural Networks for Virtual Analog Audio Effects Modeling
- arxiv url: http://arxiv.org/abs/2405.04124v2
- Date: Wed, 8 May 2024 10:35:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-09 13:25:23.599816
- Title: Comparative Study of Recurrent Neural Networks for Virtual Analog Audio Effects Modeling
- Title(参考訳): 仮想アナログ音響効果モデリングのためのリカレントニューラルネットワークの比較検討
- Authors: Riccardo Simionato, Stefano Fasciani,
- Abstract要約: 仮想アナログモデリングにおける機械学習の応用について検討する。
我々は、ステートスペースモデルと線形リカレントユニットを、より一般的なLong Short Term Memoryネットワークと比較する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Analog electronic circuits are at the core of an important category of musical devices. The nonlinear features of their electronic components give analog musical devices a distinctive timbre and sound quality, making them highly desirable. Artificial neural networks have rapidly gained popularity for the emulation of analog audio effects circuits, particularly recurrent networks. While neural approaches have been successful in accurately modeling distortion circuits, they require architectural improvements that account for parameter conditioning and low latency response. In this article, we explore the application of recent machine learning advancements for virtual analog modeling. We compare State Space models and Linear Recurrent Units against the more common Long Short Term Memory networks. These have shown promising ability in sequence to sequence modeling tasks, showing a notable improvement in signal history encoding. Our comparative study uses these black box neural modeling techniques with a variety of audio effects. We evaluate the performance and limitations using multiple metrics aiming to assess the models' ability to accurately replicate energy envelopes, frequency contents, and transients in the audio signal. To incorporate control parameters we employ the Feature wise Linear Modulation method. Long Short Term Memory networks exhibit better accuracy in emulating distortions and equalizers, while the State Space model, followed by Long Short Term Memory networks when integrated in an encoder decoder structure, outperforms others in emulating saturation and compression. When considering long time variant characteristics, the State Space model demonstrates the greatest accuracy. The Long Short Term Memory and, in particular, Linear Recurrent Unit networks present more tendency to introduce audio artifacts.
- Abstract(参考訳): アナログ電子回路は、音楽機器の重要なカテゴリの中核にある。
電子部品の非線形特性は、アナログ音楽機器に独特の音色と音質を与え、非常に好ましい。
人工ニューラルネットワークは、アナログオーディオ効果回路、特にリカレントネットワークのエミュレーションで急速に人気を集めている。
ニューラルネットワークは歪み回路を正確にモデル化することに成功したが、パラメータ条件付けと低レイテンシ応答を考慮したアーキテクチャの改善が必要である。
本稿では,最近の機械学習の仮想アナログモデリングへの応用について検討する。
我々は、ステートスペースモデルと線形リカレントユニットを、より一般的なLong Short Term Memoryネットワークと比較する。
これらはシーケンス・ツー・シーケンス・モデリングのタスクにおいて有望な能力を示し、信号履歴符号化の顕著な改善を示している。
我々の比較研究は、様々な音響効果を持つブラックボックスニューラルモデリング技術を用いている。
音響信号のエネルギー包絡、周波数内容、過渡性を正確に再現するモデルの能力を評価するために、複数の指標を用いて性能と限界を評価する。
制御パラメータを組み込むには、Feature wise Linear Modulation法を用いる。
長期記憶ネットワークは歪みや等化器のエミュレートにおいて精度が向上し、ステートスペースモデルはエンコーダデコーダ構造に統合された場合の長期記憶ネットワークに続き、飽和や圧縮のエミュレーションにおいて他より優れる。
長期間の変動特性を考慮すると、状態空間モデルは最大の精度を示す。
長期記憶(Long Short Term Memory)、特にリニア・リカレント・ユニット・ネットワーク(Linear Recurrent Unit Network)は、オーディオ・アーティファクトを導入する傾向がある。
関連論文リスト
- ARLON: Boosting Diffusion Transformers with Autoregressive Models for Long Video Generation [83.62931466231898]
本稿では,長期ビデオ生成のための自己回帰モデルを用いた拡散変換器を高速化するフレームワークARLONを提案する。
潜在ベクトル量子変分オートコーダ(VQ-VAE)は、DiTモデルの入力潜時空間をコンパクトなビジュアルトークンに圧縮する。
適応ノルムベースのセマンティックインジェクションモジュールは、ARモデルから粗い離散視覚ユニットをDiTモデルに統合する。
論文 参考訳(メタデータ) (2024-10-27T16:28:28Z) - A Realistic Simulation Framework for Analog/Digital Neuromorphic Architectures [73.65190161312555]
ARCANAは、混合信号ニューロモルフィック回路の特性を考慮に入れたスパイクニューラルネットワークシミュレータである。
その結果,ソフトウェアでトレーニングしたスパイクニューラルネットワークの挙動を,信頼性の高い推定結果として提示した。
論文 参考訳(メタデータ) (2024-09-23T11:16:46Z) - Evaluating Neural Networks Architectures for Spring Reverb Modelling [0.21847754147782888]
スプリングレバーブの電気機械的機能により、デジタル領域で完全にエミュレートすることが難しい非線形システムとなる。
我々は、畳み込みモデルと繰り返しモデルを含む5つの異なるニューラルネットワークアーキテクチャを比較し、この音響効果の特性を再現する効果を評価する。
本稿では,春の残響領域における現在のブラックボックスモデリング技術の境界線を推し進めることを目的として,パラメトリック制御を提供するニューラルオーディオアーキテクチャに焦点を当てた。
論文 参考訳(メタデータ) (2024-09-08T02:37:42Z) - Modeling Time-Variant Responses of Optical Compressors with Selective State Space Models [0.0]
本稿では,Selective State Spaceモデルを用いたディープニューラルネットワークを用いた光学ダイナミックレンジ圧縮機のモデル化手法を提案する。
ネットワークを動的に調整するために、機能ワイドリニア変調とゲート付きリニアユニットを統合した洗練された技術が特徴である。
提案アーキテクチャは、ライブオーディオ処理において重要な低レイテンシおよびリアルタイムアプリケーションに適している。
論文 参考訳(メタデータ) (2024-08-22T17:03:08Z) - Differentiable Modal Synthesis for Physical Modeling of Planar String Sound and Motion Simulation [17.03776191787701]
非線形弦の運動特性をシミュレーションする新しいモデルを提案する。
我々は物理ネットワークフレームワークにモーダル合成とスペクトルモデリングを統合する。
経験的評価は、弦運動シミュレーションにおいて、アーキテクチャが優れた精度を達成することを示す。
論文 参考訳(メタデータ) (2024-07-07T23:36:51Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - An advanced spatio-temporal convolutional recurrent neural network for
storm surge predictions [73.4962254843935]
本研究では, 人工ニューラルネットワークモデルを用いて, 嵐の軌跡/規模/強度履歴に基づいて, 強風をエミュレートする能力について検討する。
本研究では, 人工嵐シミュレーションのデータベースを用いて, 強風を予測できるニューラルネットワークモデルを提案する。
論文 参考訳(メタデータ) (2022-04-18T23:42:18Z) - RAVE: A variational autoencoder for fast and high-quality neural audio
synthesis [2.28438857884398]
本稿では,高速かつ高品質な音声波形合成が可能なリアルタイムオーディオ変分自動エンコーダ(RAVE)を提案する。
我々のモデルは48kHzのオーディオ信号を生成できる最初のモデルであり、同時に標準のラップトップCPU上で20倍高速に動作可能であることを示す。
論文 参考訳(メタデータ) (2021-11-09T09:07:30Z) - Exploring Quality and Generalizability in Parameterized Neural Audio
Effects [0.0]
ディープニューラルネットワークは、音楽オーディオ信号処理アプリケーションへの期待を示している。
これまでの結果は、低サンプリング率、ノイズ、信号タイプの狭い領域、および/またはパラメータ化制御の欠如によって制約される傾向にあった。
本研究は、非線形時間依存信号処理効果のモデル化に関する先行研究を拡大する。
論文 参考訳(メタデータ) (2020-06-10T00:52:08Z) - VaPar Synth -- A Variational Parametric Model for Audio Synthesis [78.3405844354125]
本稿では,条件付き変分オートエンコーダ(CVAE)を用いた変分パラメトリックシンセサイザVaPar Synthを提案する。
提案するモデルの性能は,ピッチを柔軟に制御した楽器音の再構成と生成によって実証する。
論文 参考訳(メタデータ) (2020-03-30T16:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。