Fugu-MT 論文翻訳(概要): Comparative Study of State-based Neural Networks for Virtual Analog Audio Effects Modeling

論文の概要: Comparative Study of State-based Neural Networks for Virtual Analog Audio Effects Modeling

arxiv url: http://arxiv.org/abs/2405.04124v5
Date: Thu, 29 Aug 2024 09:44:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-30 19:08:38.958870
Title: Comparative Study of State-based Neural Networks for Virtual Analog Audio Effects Modeling
Title（参考訳）: 仮想アナログ音響効果モデリングのための状態ベースニューラルネットワークの比較検討
Authors: Riccardo Simionato, Stefano Fasciani,
Abstract要約: 本稿では,仮想アナログモデリングにおける機械学習の応用について考察する。我々は、ステートスペースモデルと線形リカレントユニットを、より一般的なLong Short-Term Memoryネットワークと比較する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Analog electronic circuits are at the core of an important category of musical devices, which includes a broad range of sound synthesizers and audio effects. The development of software that simulates analog musical devices, known as virtual analog modeling, is a significant sub-field in audio signal processing. Artificial neural networks are a promising technique for virtual analog modeling. While neural approaches have successfully accurately modeled distortion circuits, they require architectural improvements that account for parameter conditioning and low-latency response. This article explores the application of recent machine learning advancements for virtual analog modeling. In particular, we compare State-Space models and Linear Recurrent Units against the more common Long Short-Term Memory networks. Our comparative study uses these black-box neural modeling techniques with various audio effects. We evaluate the performance and limitations of these models using multiple metrics, providing insights for future research and development. Our metrics aim to assess the models' ability to accurately replicate energy envelopes and frequency contents, with a particular focus on transients in the audio signal. To incorporate control parameters into the models, we employ the Feature-wise Linear Modulation method. Long Short-Term Memory networks exhibit better accuracy in emulating distortions and equalizers, while the State-Space model, followed by Long Short-Term Memory networks when integrated in an encoder-decoder structure, and Linear Recurrent Unit outperforms others in emulating saturation and compression. When considering long time-variant characteristics, the State-Space model demonstrates the greatest capability to track history. Long Short-Term Memory networks tend to introduce audio artifacts.
Abstract（参考訳）: アナログ電子回路は、幅広いサウンドシンセサイザーとオーディオ効果を含む、音楽機器の重要なカテゴリの中核である。仮想アナログモデリングとして知られるアナログ音楽デバイスをシミュレートするソフトウェアの開発は、音声信号処理において重要なサブフィールドである。人工ニューラルネットワークは仮想アナログモデリングの有望な技術である。ニューラルネットワークは歪み回路を正確にモデル化することに成功したが、パラメータ条件付けと低レイテンシ応答を考慮したアーキテクチャの改善が必要である。本稿では,最近の機械学習の仮想アナログモデリングへの応用について考察する。特に、ステートスペースモデルと線形リカレントユニットを、より一般的なLong Short-Term Memoryネットワークと比較する。我々の比較研究は、様々な音響効果を持つブラックボックスニューラルモデリング技術を用いている。我々は、これらのモデルの性能と限界を複数の指標を用いて評価し、将来の研究開発のための洞察を提供する。我々の測定基準は、音響信号の過渡性に着目して、エネルギーエンベロープと周波数コンテンツを正確に再現するモデルの能力を評価することを目的としている。制御パラメータをモデルに組み込むために,特徴量線形変調法を用いる。長い短期記憶ネットワークは歪みや等化器のエミュレートにおいて精度が向上し、ステートスペースモデルはエンコーダ・デコーダ構造に統合された場合のロング短期記憶ネットワークに続き、リニア・リカレント・ユニットは飽和や圧縮のエミュレーションにおいて他より優れている。長期間の変動特性を考慮すると、State-Spaceモデルは履歴を追跡する最大の能力を示す。長期記憶ネットワークはオーディオアーティファクトを導入する傾向がある。

関連論文リスト

FreSca: Scaling in Frequency Space Enhances Diffusion Models [55.75504192166779]
本稿では,潜時拡散モデルにおける周波数制御について検討する。本稿では,低周波成分と高周波成分にノイズ差を分解する新しいフレームワークFreScaを紹介する。 FreScaはモデルの再トレーニングやアーキテクチャの変更なしに動作し、モデルとタスクに依存しない制御を提供する。
論文参考訳（メタデータ） (2025-04-02T22:03:11Z)
Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-29T19:02:54Z)
ARLON: Boosting Diffusion Transformers with Autoregressive Models for Long Video Generation [83.62931466231898]
本稿では,長期ビデオ生成のための自己回帰モデルを用いた拡散変換器を高速化するフレームワークARLONを提案する。潜在ベクトル量子変分オートコーダ(VQ-VAE)は、DiTモデルの入力潜時空間をコンパクトなビジュアルトークンに圧縮する。適応ノルムベースのセマンティックインジェクションモジュールは、ARモデルから粗い離散視覚ユニットをDiTモデルに統合する。
論文参考訳（メタデータ） (2024-10-27T16:28:28Z)
A Realistic Simulation Framework for Analog/Digital Neuromorphic Architectures [73.65190161312555]
ARCANAは、混合信号ニューロモルフィック回路の特性を考慮に入れたスパイクニューラルネットワークシミュレータである。その結果,ソフトウェアでトレーニングしたスパイクニューラルネットワークの挙動を,信頼性の高い推定結果として提示した。
論文参考訳（メタデータ） (2024-09-23T11:16:46Z)
Evaluating Neural Networks Architectures for Spring Reverb Modelling [0.21847754147782888]
スプリングレバーブの電気機械的機能により、デジタル領域で完全にエミュレートすることが難しい非線形システムとなる。我々は、畳み込みモデルと繰り返しモデルを含む5つの異なるニューラルネットワークアーキテクチャを比較し、この音響効果の特性を再現する効果を評価する。本稿では,春の残響領域における現在のブラックボックスモデリング技術の境界線を推し進めることを目的として,パラメトリック制御を提供するニューラルオーディオアーキテクチャに焦点を当てた。
論文参考訳（メタデータ） (2024-09-08T02:37:42Z)
Modeling Time-Variant Responses of Optical Compressors with Selective State Space Models [0.0]
本稿では,Selective State Spaceモデルを用いたディープニューラルネットワークを用いた光学ダイナミックレンジ圧縮機のモデル化手法を提案する。ネットワークを動的に調整するために、機能ワイドリニア変調とゲート付きリニアユニットを統合した洗練された技術が特徴である。提案アーキテクチャは、ライブオーディオ処理において重要な低レイテンシおよびリアルタイムアプリケーションに適している。
論文参考訳（メタデータ） (2024-08-22T17:03:08Z)
Differentiable Modal Synthesis for Physical Modeling of Planar String Sound and Motion Simulation [17.03776191787701]
非線形弦の運動特性をシミュレーションする新しいモデルを提案する。我々は物理ネットワークフレームワークにモーダル合成とスペクトルモデリングを統合する。経験的評価は、弦運動シミュレーションにおいて、アーキテクチャが優れた精度を達成することを示す。
論文参考訳（メタデータ） (2024-07-07T23:36:51Z)
Efficient and Flexible Neural Network Training through Layer-wise Feedback Propagation [49.44309457870649]
レイヤワイドフィードバックフィードバック(LFP)は、ニューラルネットワークのような予測器のための新しいトレーニング原則である。 LFPはそれぞれの貢献に基づいて個々のニューロンに報酬を分解する。提案手法は,ネットワークの有用な部分と有害な部分の弱体化を両立させる手法である。
論文参考訳（メタデータ） (2023-08-23T10:48:28Z)
Understanding Self-attention Mechanism via Dynamical System Perspective [58.024376086269015]
SAM(Self-attention mechanism)は、人工知能の様々な分野で広く使われている。常微分方程式(ODE)の高精度解における固有剛性現象(SP)は,高性能ニューラルネットワーク(NN)にも広く存在することを示す。 SAMは、本質的なSPを測定するためのモデルの表現能力を高めることができる剛性対応のステップサイズ適応器でもあることを示す。
論文参考訳（メタデータ） (2023-08-19T08:17:41Z)
From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文参考訳（メタデータ） (2023-08-02T22:14:29Z)
Tunable Convolutions with Parametric Multi-Loss Optimization [5.658123802733283]
ニューラルネットワークの挙動は、トレーニング中に使用される特定の損失とデータによって不適切に決定される。ユーザの好みやデータの動的特性といった外部要因に基づいて,推論時にモデルをチューニングすることが望ましい場合が多い。これは、不適切な画像から画像への変換タスクの知覚歪曲トレードオフのバランスをとるために特に重要である。
論文参考訳（メタデータ） (2023-04-03T11:36:10Z)
High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文参考訳（メタデータ） (2022-10-24T17:52:02Z)
End-to-End Learning of Hybrid Inverse Dynamics Models for Precise and Compliant Impedance Control [16.88250694156719]
剛体力学モデルの物理的に一貫した慣性パラメータを同定できる新しいハイブリッドモデルの定式化を提案する。 7自由度マニピュレータ上での最先端の逆動力学モデルに対する我々のアプローチを比較した。
論文参考訳（メタデータ） (2022-05-27T07:39:28Z)
An advanced spatio-temporal convolutional recurrent neural network for storm surge predictions [73.4962254843935]
本研究では, 人工ニューラルネットワークモデルを用いて, 嵐の軌跡/規模/強度履歴に基づいて, 強風をエミュレートする能力について検討する。本研究では, 人工嵐シミュレーションのデータベースを用いて, 強風を予測できるニューラルネットワークモデルを提案する。
論文参考訳（メタデータ） (2022-04-18T23:42:18Z)
Real-time Neural-MPC: Deep Learning Model Predictive Control for Quadrotors and Agile Robotic Platforms [59.03426963238452]
モデル予測制御パイプライン内の動的モデルとして,大規模で複雑なニューラルネットワークアーキテクチャを効率的に統合するフレームワークであるReal-time Neural MPCを提案する。ニューラルネットワークを使わずに、最先端のMPCアプローチと比較して、位置追跡誤差を最大82%削減することで、実世界の問題に対する我々のフレームワークの実現可能性を示す。
論文参考訳（メタデータ） (2022-03-15T09:38:15Z)
RAVE: A variational autoencoder for fast and high-quality neural audio synthesis [2.28438857884398]
本稿では,高速かつ高品質な音声波形合成が可能なリアルタイムオーディオ変分自動エンコーダ(RAVE)を提案する。我々のモデルは48kHzのオーディオ信号を生成できる最初のモデルであり、同時に標準のラップトップCPU上で20倍高速に動作可能であることを示す。
論文参考訳（メタデータ） (2021-11-09T09:07:30Z)
Conditionally Parameterized, Discretization-Aware Neural Networks for Mesh-Based Modeling of Physical Systems [0.0]
入力パラメータのトレーニング可能な関数を用いて条件パラメトリゼーションの考え方を一般化する。条件パラメータ化ネットワークは従来のネットワークに比べて優れた性能を示すことを示す。 CP-GNetと呼ばれるネットワークアーキテクチャも、メッシュ上のフローのスタンドアロン予測に反応可能な最初のディープラーニングモデルとして提案されている。
論文参考訳（メタデータ） (2021-09-15T20:21:13Z)
Rate Distortion Characteristic Modeling for Neural Image Compression [59.25700168404325]
エンドツーエンドの最適化機能は、ニューラルイメージ圧縮(NIC)の優れた損失圧縮性能を提供する。異なるモデルは、R-D空間の異なる点に到達するために訓練される必要がある。深層ネットワークと統計モデルを用いてNICのR-D挙動を記述するために,本質的な数学的関数の定式化に努めている。
論文参考訳（メタデータ） (2021-06-24T12:23:05Z)
Action-Conditional Recurrent Kalman Networks For Forward and Inverse Dynamics Learning [17.80270555749689]
ロボットのモデルベース制御において、正確な前方および逆ダイナミクスモデルの推定が重要な要素である。本稿では,フォワードモデル学習のためのアーキテクチャと,逆モデル学習のためのアーキテクチャを提案する。どちらのアーキテクチャも、予測性能の点で、既存のモデル学習フレームワークと分析モデルを大きく上回っている。
論文参考訳（メタデータ） (2020-10-20T11:28:25Z)
Exploring Quality and Generalizability in Parameterized Neural Audio Effects [0.0]
ディープニューラルネットワークは、音楽オーディオ信号処理アプリケーションへの期待を示している。これまでの結果は、低サンプリング率、ノイズ、信号タイプの狭い領域、および/またはパラメータ化制御の欠如によって制約される傾向にあった。本研究は、非線形時間依存信号処理効果のモデル化に関する先行研究を拡大する。
論文参考訳（メタデータ） (2020-06-10T00:52:08Z)
VaPar Synth -- A Variational Parametric Model for Audio Synthesis [78.3405844354125]
本稿では,条件付き変分オートエンコーダ(CVAE)を用いた変分パラメトリックシンセサイザVaPar Synthを提案する。提案するモデルの性能は,ピッチを柔軟に制御した楽器音の再構成と生成によって実証する。
論文参考訳（メタデータ） (2020-03-30T16:05:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。