論文の概要: Comparative Study of State-based Neural Networks for Virtual Analog Audio Effects Modeling
- arxiv url: http://arxiv.org/abs/2405.04124v5
- Date: Thu, 29 Aug 2024 09:44:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-30 19:08:38.958870
- Title: Comparative Study of State-based Neural Networks for Virtual Analog Audio Effects Modeling
- Title(参考訳): 仮想アナログ音響効果モデリングのための状態ベースニューラルネットワークの比較検討
- Authors: Riccardo Simionato, Stefano Fasciani,
- Abstract要約: 本稿では,仮想アナログモデリングにおける機械学習の応用について考察する。
我々は、ステートスペースモデルと線形リカレントユニットを、より一般的なLong Short-Term Memoryネットワークと比較する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Analog electronic circuits are at the core of an important category of musical devices, which includes a broad range of sound synthesizers and audio effects. The development of software that simulates analog musical devices, known as virtual analog modeling, is a significant sub-field in audio signal processing. Artificial neural networks are a promising technique for virtual analog modeling. While neural approaches have successfully accurately modeled distortion circuits, they require architectural improvements that account for parameter conditioning and low-latency response. This article explores the application of recent machine learning advancements for virtual analog modeling. In particular, we compare State-Space models and Linear Recurrent Units against the more common Long Short-Term Memory networks. Our comparative study uses these black-box neural modeling techniques with various audio effects. We evaluate the performance and limitations of these models using multiple metrics, providing insights for future research and development. Our metrics aim to assess the models' ability to accurately replicate energy envelopes and frequency contents, with a particular focus on transients in the audio signal. To incorporate control parameters into the models, we employ the Feature-wise Linear Modulation method. Long Short-Term Memory networks exhibit better accuracy in emulating distortions and equalizers, while the State-Space model, followed by Long Short-Term Memory networks when integrated in an encoder-decoder structure, and Linear Recurrent Unit outperforms others in emulating saturation and compression. When considering long time-variant characteristics, the State-Space model demonstrates the greatest capability to track history. Long Short-Term Memory networks tend to introduce audio artifacts.
- Abstract(参考訳): アナログ電子回路は、幅広いサウンドシンセサイザーとオーディオ効果を含む、音楽機器の重要なカテゴリの中核である。
仮想アナログモデリングとして知られるアナログ音楽デバイスをシミュレートするソフトウェアの開発は、音声信号処理において重要なサブフィールドである。
人工ニューラルネットワークは仮想アナログモデリングの有望な技術である。
ニューラルネットワークは歪み回路を正確にモデル化することに成功したが、パラメータ条件付けと低レイテンシ応答を考慮したアーキテクチャの改善が必要である。
本稿では,最近の機械学習の仮想アナログモデリングへの応用について考察する。
特に、ステートスペースモデルと線形リカレントユニットを、より一般的なLong Short-Term Memoryネットワークと比較する。
我々の比較研究は、様々な音響効果を持つブラックボックスニューラルモデリング技術を用いている。
我々は、これらのモデルの性能と限界を複数の指標を用いて評価し、将来の研究開発のための洞察を提供する。
我々の測定基準は、音響信号の過渡性に着目して、エネルギーエンベロープと周波数コンテンツを正確に再現するモデルの能力を評価することを目的としている。
制御パラメータをモデルに組み込むために,特徴量線形変調法を用いる。
長い短期記憶ネットワークは歪みや等化器のエミュレートにおいて精度が向上し、ステートスペースモデルはエンコーダ・デコーダ構造に統合された場合のロング短期記憶ネットワークに続き、リニア・リカレント・ユニットは飽和や圧縮のエミュレーションにおいて他より優れている。
長期間の変動特性を考慮すると、State-Spaceモデルは履歴を追跡する最大の能力を示す。
長期記憶ネットワークはオーディオアーティファクトを導入する傾向がある。
関連論文リスト
- ARLON: Boosting Diffusion Transformers with Autoregressive Models for Long Video Generation [83.62931466231898]
本稿では,長期ビデオ生成のための自己回帰モデルを用いた拡散変換器を高速化するフレームワークARLONを提案する。
潜在ベクトル量子変分オートコーダ(VQ-VAE)は、DiTモデルの入力潜時空間をコンパクトなビジュアルトークンに圧縮する。
適応ノルムベースのセマンティックインジェクションモジュールは、ARモデルから粗い離散視覚ユニットをDiTモデルに統合する。
論文 参考訳(メタデータ) (2024-10-27T16:28:28Z) - A Realistic Simulation Framework for Analog/Digital Neuromorphic Architectures [73.65190161312555]
ARCANAは、混合信号ニューロモルフィック回路の特性を考慮に入れたスパイクニューラルネットワークシミュレータである。
その結果,ソフトウェアでトレーニングしたスパイクニューラルネットワークの挙動を,信頼性の高い推定結果として提示した。
論文 参考訳(メタデータ) (2024-09-23T11:16:46Z) - Evaluating Neural Networks Architectures for Spring Reverb Modelling [0.21847754147782888]
スプリングレバーブの電気機械的機能により、デジタル領域で完全にエミュレートすることが難しい非線形システムとなる。
我々は、畳み込みモデルと繰り返しモデルを含む5つの異なるニューラルネットワークアーキテクチャを比較し、この音響効果の特性を再現する効果を評価する。
本稿では,春の残響領域における現在のブラックボックスモデリング技術の境界線を推し進めることを目的として,パラメトリック制御を提供するニューラルオーディオアーキテクチャに焦点を当てた。
論文 参考訳(メタデータ) (2024-09-08T02:37:42Z) - Modeling Time-Variant Responses of Optical Compressors with Selective State Space Models [0.0]
本稿では,Selective State Spaceモデルを用いたディープニューラルネットワークを用いた光学ダイナミックレンジ圧縮機のモデル化手法を提案する。
ネットワークを動的に調整するために、機能ワイドリニア変調とゲート付きリニアユニットを統合した洗練された技術が特徴である。
提案アーキテクチャは、ライブオーディオ処理において重要な低レイテンシおよびリアルタイムアプリケーションに適している。
論文 参考訳(メタデータ) (2024-08-22T17:03:08Z) - Differentiable Modal Synthesis for Physical Modeling of Planar String Sound and Motion Simulation [17.03776191787701]
非線形弦の運動特性をシミュレーションする新しいモデルを提案する。
我々は物理ネットワークフレームワークにモーダル合成とスペクトルモデリングを統合する。
経験的評価は、弦運動シミュレーションにおいて、アーキテクチャが優れた精度を達成することを示す。
論文 参考訳(メタデータ) (2024-07-07T23:36:51Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - An advanced spatio-temporal convolutional recurrent neural network for
storm surge predictions [73.4962254843935]
本研究では, 人工ニューラルネットワークモデルを用いて, 嵐の軌跡/規模/強度履歴に基づいて, 強風をエミュレートする能力について検討する。
本研究では, 人工嵐シミュレーションのデータベースを用いて, 強風を予測できるニューラルネットワークモデルを提案する。
論文 参考訳(メタデータ) (2022-04-18T23:42:18Z) - RAVE: A variational autoencoder for fast and high-quality neural audio
synthesis [2.28438857884398]
本稿では,高速かつ高品質な音声波形合成が可能なリアルタイムオーディオ変分自動エンコーダ(RAVE)を提案する。
我々のモデルは48kHzのオーディオ信号を生成できる最初のモデルであり、同時に標準のラップトップCPU上で20倍高速に動作可能であることを示す。
論文 参考訳(メタデータ) (2021-11-09T09:07:30Z) - Exploring Quality and Generalizability in Parameterized Neural Audio
Effects [0.0]
ディープニューラルネットワークは、音楽オーディオ信号処理アプリケーションへの期待を示している。
これまでの結果は、低サンプリング率、ノイズ、信号タイプの狭い領域、および/またはパラメータ化制御の欠如によって制約される傾向にあった。
本研究は、非線形時間依存信号処理効果のモデル化に関する先行研究を拡大する。
論文 参考訳(メタデータ) (2020-06-10T00:52:08Z) - VaPar Synth -- A Variational Parametric Model for Audio Synthesis [78.3405844354125]
本稿では,条件付き変分オートエンコーダ(CVAE)を用いた変分パラメトリックシンセサイザVaPar Synthを提案する。
提案するモデルの性能は,ピッチを柔軟に制御した楽器音の再構成と生成によって実証する。
論文 参考訳(メタデータ) (2020-03-30T16:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。