論文の概要: Modeling Time-Variant Responses of Optical Compressors with Selective State Space Models
- arxiv url: http://arxiv.org/abs/2408.12549v1
- Date: Thu, 22 Aug 2024 17:03:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-23 13:02:30.287287
- Title: Modeling Time-Variant Responses of Optical Compressors with Selective State Space Models
- Title(参考訳): 選択状態空間モデルを用いた光圧縮機の時間変動応答のモデル化
- Authors: Riccardo Simionato,
- Abstract要約: 本稿では,Selective State Spaceモデルを用いたディープニューラルネットワークを用いた光学ダイナミックレンジ圧縮機のモデル化手法を提案する。
ネットワークを動的に調整するために、機能ワイドリニア変調とゲート付きリニアユニットを統合した洗練された技術が特徴である。
提案アーキテクチャは、ライブオーディオ処理において重要な低レイテンシおよびリアルタイムアプリケーションに適している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper presents a method for modeling optical dynamic range compressors using deep neural networks with Selective State Space models. The proposed approach surpasses previous methods based on recurrent layers by employing a Selective State Space block to encode the input audio. It features a refined technique integrating Feature-wise Linear Modulation and Gated Linear Units to adjust the network dynamically, conditioning the compression's attack and release phases according to external parameters. The proposed architecture is well-suited for low-latency and real-time applications, crucial in live audio processing. The method has been validated on the analog optical compressors TubeTech CL 1B and Teletronix LA-2A, which possess distinct characteristics. Evaluation is performed using quantitative metrics and subjective listening tests, comparing the proposed method with other state-of-the-art models. Results show that our black-box modeling methods outperform all others, achieving accurate emulation of the compression process for both seen and unseen settings during training. We further show a correlation between this accuracy and the sampling density of the control parameters in the dataset and identify settings with fast attack and slow release as the most challenging to emulate.
- Abstract(参考訳): 本稿では,Selective State Spaceモデルを用いたディープニューラルネットワークを用いた光学ダイナミックレンジ圧縮機のモデル化手法を提案する。
提案手法は、Selective State Spaceブロックを用いて入力音声を符号化することにより、繰り返し層に基づく従来の手法を超越する。
機能ワイドリニア変調とゲート付きリニアユニットを統合して動的にネットワークを調整し、外部パラメータに応じて圧縮のアタックとリリースフェーズを条件付ける。
提案アーキテクチャは、ライブオーディオ処理において重要な低レイテンシおよびリアルタイムアプリケーションに適している。
この方法は、異なる特性を持つアナログ光学圧縮機TubeTech CL 1BとTeletronix LA-2Aで検証されている。
定量的な測定値と主観的聴力テストを用いて評価を行い,提案手法を他の最先端モデルと比較した。
その結果,ブラックボックスのモデリング手法は他の手法よりも優れており,トレーニング中は目視と目視の両方の圧縮過程の正確なエミュレーションを実現していることがわかった。
さらに、この精度とデータセット内の制御パラメータのサンプリング密度の相関性を示し、高速攻撃と遅いリリースによる設定をエミュレートするのが最も困難であることを示す。
関連論文リスト
- Model and Deep learning based Dynamic Range Compression Inversion [12.002024727237837]
DRCの反転は、元のダイナミクスを復元し、新しいミックスを生成したり、オーディオ信号の全体的な品質を改善するのに役立つ。
DRCインバージョンのためのニューラルネットワークを用いたモデルベースアプローチを提案する。
その結果,提案手法の有効性とロバスト性について,いくつかの最先端手法と比較した。
論文 参考訳(メタデータ) (2024-11-07T00:33:07Z) - Language Models as Zero-shot Lossless Gradient Compressors: Towards
General Neural Parameter Prior Models [66.1595537904019]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。
本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。
論文 参考訳(メタデータ) (2024-09-26T13:38:33Z) - Model-Based Qubit Noise Spectroscopy [0.0]
古典的な信号処理からインスピレーションを得てモデルに基づくQNSアプローチを導出する。
シミュレーションと実験データの両方を通して、これらのモデルに基づくQNSアプローチが、古典的手法の統計的および計算的利点をいかに維持するかを示す。
論文 参考訳(メタデータ) (2024-05-20T09:30:38Z) - Comparative Study of State-based Neural Networks for Virtual Analog Audio Effects Modeling [0.0]
本稿では,仮想アナログモデリングにおける機械学習の応用について考察する。
我々は、ステートスペースモデルと線形リカレントユニットを、より一般的なLong Short-Term Memoryネットワークと比較する。
論文 参考訳(メタデータ) (2024-05-07T08:47:40Z) - Online Variational Sequential Monte Carlo [49.97673761305336]
我々は,計算効率が高く正確なモデルパラメータ推定とベイジアン潜在状態推定を提供する変分連続モンテカルロ法(VSMC)を構築した。
オンラインVSMCは、パラメータ推定と粒子提案適応の両方を効率よく、完全にオンザフライで実行することができる。
論文 参考訳(メタデータ) (2023-12-19T21:45:38Z) - Uncertainty Guided Adaptive Warping for Robust and Efficient Stereo
Matching [77.133400999703]
相関に基づくステレオマッチングは優れた性能を達成した。
固定モデルによる現在のメソッドは、さまざまなデータセットで均一に動作しない。
本稿では,ロバストなステレオマッチングのための相関を動的に計算する新しい視点を提案する。
論文 参考訳(メタデータ) (2023-07-26T09:47:37Z) - Boosting Fast and High-Quality Speech Synthesis with Linear Diffusion [85.54515118077825]
本稿では, 常微分方程式に基づく線形拡散モデル(LinDiff)を提案する。
計算複雑性を低減するため、LinDiffでは、入力信号を小さなパッチに分割するパッチベースの処理アプローチを採用している。
我々のモデルは、より高速な合成速度で自己回帰モデルに匹敵する品質の音声を合成することができる。
論文 参考訳(メタデータ) (2023-06-09T07:02:43Z) - One-Dimensional Deep Image Prior for Curve Fitting of S-Parameters from
Electromagnetic Solvers [57.441926088870325]
Deep Image Prior(ディープ・イメージ・プライオリ、ディープ・イメージ・プライオリ、DIP)は、ランダムなd畳み込みニューラルネットワークの重みを最適化し、ノイズや過度な測定値からの信号に適合させる技術である。
本稿では,Vector Fitting (VF) の実装に対して,ほぼすべてのテスト例において優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-06T20:28:37Z) - Gradient-free optimization of chaotic acoustics with reservoir computing [6.345523830122166]
時間平均音響コスト関数を最小化する設計パラメータを求める多目的最適化法を開発した。
この方法は、勾配のないモデルインフォームドと、エコー状態ネットワークに基づく貯水池計算によるデータ駆動である。
論文 参考訳(メタデータ) (2021-06-17T19:49:45Z) - Real-Time Model Calibration with Deep Reinforcement Learning [4.707841918805165]
本稿では,強化学習に基づくモデルパラメータ推定のための新しいフレームワークを提案する。
提案手法を2つのモデルベース診断試験ケースで実証し, 評価した。
論文 参考訳(メタデータ) (2020-06-07T00:11:42Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。