論文の概要: Comparative Study of Recurrent Neural Networks for Virtual Analog Audio Effects Modeling
- arxiv url: http://arxiv.org/abs/2405.04124v2
- Date: Wed, 8 May 2024 10:35:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-05-09 13:25:23.599816
- Title: Comparative Study of Recurrent Neural Networks for Virtual Analog Audio Effects Modeling
- Title(参考訳): 仮想アナログ音響効果モデリングのためのリカレントニューラルネットワークの比較検討
- Authors: Riccardo Simionato, Stefano Fasciani,
- Abstract要約: 仮想アナログモデリングにおける機械学習の応用について検討する。
我々は、ステートスペースモデルと線形リカレントユニットを、より一般的なLong Short Term Memoryネットワークと比較する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Analog electronic circuits are at the core of an important category of musical devices. The nonlinear features of their electronic components give analog musical devices a distinctive timbre and sound quality, making them highly desirable. Artificial neural networks have rapidly gained popularity for the emulation of analog audio effects circuits, particularly recurrent networks. While neural approaches have been successful in accurately modeling distortion circuits, they require architectural improvements that account for parameter conditioning and low latency response. In this article, we explore the application of recent machine learning advancements for virtual analog modeling. We compare State Space models and Linear Recurrent Units against the more common Long Short Term Memory networks. These have shown promising ability in sequence to sequence modeling tasks, showing a notable improvement in signal history encoding. Our comparative study uses these black box neural modeling techniques with a variety of audio effects. We evaluate the performance and limitations using multiple metrics aiming to assess the models' ability to accurately replicate energy envelopes, frequency contents, and transients in the audio signal. To incorporate control parameters we employ the Feature wise Linear Modulation method. Long Short Term Memory networks exhibit better accuracy in emulating distortions and equalizers, while the State Space model, followed by Long Short Term Memory networks when integrated in an encoder decoder structure, outperforms others in emulating saturation and compression. When considering long time variant characteristics, the State Space model demonstrates the greatest accuracy. The Long Short Term Memory and, in particular, Linear Recurrent Unit networks present more tendency to introduce audio artifacts.
- Abstract(参考訳): アナログ電子回路は、音楽機器の重要なカテゴリの中核にある。
電子部品の非線形特性は、アナログ音楽機器に独特の音色と音質を与え、非常に好ましい。
人工ニューラルネットワークは、アナログオーディオ効果回路、特にリカレントネットワークのエミュレーションで急速に人気を集めている。
ニューラルネットワークは歪み回路を正確にモデル化することに成功したが、パラメータ条件付けと低レイテンシ応答を考慮したアーキテクチャの改善が必要である。
本稿では,最近の機械学習の仮想アナログモデリングへの応用について検討する。
我々は、ステートスペースモデルと線形リカレントユニットを、より一般的なLong Short Term Memoryネットワークと比較する。
これらはシーケンス・ツー・シーケンス・モデリングのタスクにおいて有望な能力を示し、信号履歴符号化の顕著な改善を示している。
我々の比較研究は、様々な音響効果を持つブラックボックスニューラルモデリング技術を用いている。
音響信号のエネルギー包絡、周波数内容、過渡性を正確に再現するモデルの能力を評価するために、複数の指標を用いて性能と限界を評価する。
制御パラメータを組み込むには、Feature wise Linear Modulation法を用いる。
長期記憶ネットワークは歪みや等化器のエミュレートにおいて精度が向上し、ステートスペースモデルはエンコーダデコーダ構造に統合された場合の長期記憶ネットワークに続き、飽和や圧縮のエミュレーションにおいて他より優れる。
長期間の変動特性を考慮すると、状態空間モデルは最大の精度を示す。
長期記憶(Long Short Term Memory)、特にリニア・リカレント・ユニット・ネットワーク(Linear Recurrent Unit Network)は、オーディオ・アーティファクトを導入する傾向がある。
関連論文リスト
- FreSca: Scaling in Frequency Space Enhances Diffusion Models [55.75504192166779]
本稿では,潜時拡散モデルにおける周波数制御について検討する。
本稿では,低周波成分と高周波成分にノイズ差を分解する新しいフレームワークFreScaを紹介する。
FreScaはモデルの再トレーニングやアーキテクチャの変更なしに動作し、モデルとタスクに依存しない制御を提供する。
論文 参考訳(メタデータ) (2025-04-02T22:03:11Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - ARLON: Boosting Diffusion Transformers with Autoregressive Models for Long Video Generation [83.62931466231898]
本稿では,長期ビデオ生成のための自己回帰モデルを用いた拡散変換器を高速化するフレームワークARLONを提案する。
潜在ベクトル量子変分オートコーダ(VQ-VAE)は、DiTモデルの入力潜時空間をコンパクトなビジュアルトークンに圧縮する。
適応ノルムベースのセマンティックインジェクションモジュールは、ARモデルから粗い離散視覚ユニットをDiTモデルに統合する。
論文 参考訳(メタデータ) (2024-10-27T16:28:28Z) - A Realistic Simulation Framework for Analog/Digital Neuromorphic Architectures [73.65190161312555]
ARCANAは、混合信号ニューロモルフィック回路の特性を考慮に入れたスパイクニューラルネットワークシミュレータである。
その結果,ソフトウェアでトレーニングしたスパイクニューラルネットワークの挙動を,信頼性の高い推定結果として提示した。
論文 参考訳(メタデータ) (2024-09-23T11:16:46Z) - Evaluating Neural Networks Architectures for Spring Reverb Modelling [0.21847754147782888]
スプリングレバーブの電気機械的機能により、デジタル領域で完全にエミュレートすることが難しい非線形システムとなる。
我々は、畳み込みモデルと繰り返しモデルを含む5つの異なるニューラルネットワークアーキテクチャを比較し、この音響効果の特性を再現する効果を評価する。
本稿では,春の残響領域における現在のブラックボックスモデリング技術の境界線を推し進めることを目的として,パラメトリック制御を提供するニューラルオーディオアーキテクチャに焦点を当てた。
論文 参考訳(メタデータ) (2024-09-08T02:37:42Z) - Modeling Time-Variant Responses of Optical Compressors with Selective State Space Models [0.0]
本稿では,Selective State Spaceモデルを用いたディープニューラルネットワークを用いた光学ダイナミックレンジ圧縮機のモデル化手法を提案する。
ネットワークを動的に調整するために、機能ワイドリニア変調とゲート付きリニアユニットを統合した洗練された技術が特徴である。
提案アーキテクチャは、ライブオーディオ処理において重要な低レイテンシおよびリアルタイムアプリケーションに適している。
論文 参考訳(メタデータ) (2024-08-22T17:03:08Z) - Differentiable Modal Synthesis for Physical Modeling of Planar String Sound and Motion Simulation [17.03776191787701]
非線形弦の運動特性をシミュレーションする新しいモデルを提案する。
我々は物理ネットワークフレームワークにモーダル合成とスペクトルモデリングを統合する。
経験的評価は、弦運動シミュレーションにおいて、アーキテクチャが優れた精度を達成することを示す。
論文 参考訳(メタデータ) (2024-07-07T23:36:51Z) - Understanding Self-attention Mechanism via Dynamical System Perspective [58.024376086269015]
SAM(Self-attention mechanism)は、人工知能の様々な分野で広く使われている。
常微分方程式(ODE)の高精度解における固有剛性現象(SP)は,高性能ニューラルネットワーク(NN)にも広く存在することを示す。
SAMは、本質的なSPを測定するためのモデルの表現能力を高めることができる剛性対応のステップサイズ適応器でもあることを示す。
論文 参考訳(メタデータ) (2023-08-19T08:17:41Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - Tunable Convolutions with Parametric Multi-Loss Optimization [5.658123802733283]
ニューラルネットワークの挙動は、トレーニング中に使用される特定の損失とデータによって不適切に決定される。
ユーザの好みやデータの動的特性といった外部要因に基づいて,推論時にモデルをチューニングすることが望ましい場合が多い。
これは、不適切な画像から画像への変換タスクの知覚歪曲トレードオフのバランスをとるために特に重要である。
論文 参考訳(メタデータ) (2023-04-03T11:36:10Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - End-to-End Learning of Hybrid Inverse Dynamics Models for Precise and
Compliant Impedance Control [16.88250694156719]
剛体力学モデルの物理的に一貫した慣性パラメータを同定できる新しいハイブリッドモデルの定式化を提案する。
7自由度マニピュレータ上での最先端の逆動力学モデルに対する我々のアプローチを比較した。
論文 参考訳(メタデータ) (2022-05-27T07:39:28Z) - An advanced spatio-temporal convolutional recurrent neural network for
storm surge predictions [73.4962254843935]
本研究では, 人工ニューラルネットワークモデルを用いて, 嵐の軌跡/規模/強度履歴に基づいて, 強風をエミュレートする能力について検討する。
本研究では, 人工嵐シミュレーションのデータベースを用いて, 強風を予測できるニューラルネットワークモデルを提案する。
論文 参考訳(メタデータ) (2022-04-18T23:42:18Z) - Real-time Neural-MPC: Deep Learning Model Predictive Control for
Quadrotors and Agile Robotic Platforms [59.03426963238452]
モデル予測制御パイプライン内の動的モデルとして,大規模で複雑なニューラルネットワークアーキテクチャを効率的に統合するフレームワークであるReal-time Neural MPCを提案する。
ニューラルネットワークを使わずに、最先端のMPCアプローチと比較して、位置追跡誤差を最大82%削減することで、実世界の問題に対する我々のフレームワークの実現可能性を示す。
論文 参考訳(メタデータ) (2022-03-15T09:38:15Z) - RAVE: A variational autoencoder for fast and high-quality neural audio
synthesis [2.28438857884398]
本稿では,高速かつ高品質な音声波形合成が可能なリアルタイムオーディオ変分自動エンコーダ(RAVE)を提案する。
我々のモデルは48kHzのオーディオ信号を生成できる最初のモデルであり、同時に標準のラップトップCPU上で20倍高速に動作可能であることを示す。
論文 参考訳(メタデータ) (2021-11-09T09:07:30Z) - Conditionally Parameterized, Discretization-Aware Neural Networks for
Mesh-Based Modeling of Physical Systems [0.0]
入力パラメータのトレーニング可能な関数を用いて条件パラメトリゼーションの考え方を一般化する。
条件パラメータ化ネットワークは従来のネットワークに比べて優れた性能を示すことを示す。
CP-GNetと呼ばれるネットワークアーキテクチャも、メッシュ上のフローのスタンドアロン予測に反応可能な最初のディープラーニングモデルとして提案されている。
論文 参考訳(メタデータ) (2021-09-15T20:21:13Z) - Rate Distortion Characteristic Modeling for Neural Image Compression [59.25700168404325]
エンドツーエンドの最適化機能は、ニューラルイメージ圧縮(NIC)の優れた損失圧縮性能を提供する。
異なるモデルは、R-D空間の異なる点に到達するために訓練される必要がある。
深層ネットワークと統計モデルを用いてNICのR-D挙動を記述するために,本質的な数学的関数の定式化に努めている。
論文 参考訳(メタデータ) (2021-06-24T12:23:05Z) - Action-Conditional Recurrent Kalman Networks For Forward and Inverse
Dynamics Learning [17.80270555749689]
ロボットのモデルベース制御において、正確な前方および逆ダイナミクスモデルの推定が重要な要素である。
本稿では,フォワードモデル学習のためのアーキテクチャと,逆モデル学習のためのアーキテクチャを提案する。
どちらのアーキテクチャも、予測性能の点で、既存のモデル学習フレームワークと分析モデルを大きく上回っている。
論文 参考訳(メタデータ) (2020-10-20T11:28:25Z) - Exploring Quality and Generalizability in Parameterized Neural Audio
Effects [0.0]
ディープニューラルネットワークは、音楽オーディオ信号処理アプリケーションへの期待を示している。
これまでの結果は、低サンプリング率、ノイズ、信号タイプの狭い領域、および/またはパラメータ化制御の欠如によって制約される傾向にあった。
本研究は、非線形時間依存信号処理効果のモデル化に関する先行研究を拡大する。
論文 参考訳(メタデータ) (2020-06-10T00:52:08Z) - VaPar Synth -- A Variational Parametric Model for Audio Synthesis [78.3405844354125]
本稿では,条件付き変分オートエンコーダ(CVAE)を用いた変分パラメトリックシンセサイザVaPar Synthを提案する。
提案するモデルの性能は,ピッチを柔軟に制御した楽器音の再構成と生成によって実証する。
論文 参考訳(メタデータ) (2020-03-30T16:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。