論文の概要: Resampling Filter Design for Multirate Neural Audio Effect Processing
- arxiv url: http://arxiv.org/abs/2501.18470v1
- Date: Thu, 30 Jan 2025 16:44:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-31 15:13:39.507747
- Title: Resampling Filter Design for Multirate Neural Audio Effect Processing
- Title(参考訳): マルチレートニューラルオーディオ効果処理のためのリサンプリングフィルタの設計
- Authors: Alistair Carson, Vesa Välimäki, Alec Wright, Stefan Bilbao,
- Abstract要約: ニューラルネットワークの入力と出力における信号再サンプリングの利用を代替ソリューションとして検討する。
カイザー窓FIRフィルタを組み込んだ半帯域IIRフィルタを用いた2段設計により,従来提案されていたモデル調整手法に類似あるいは良好な結果が得られることを示す。
- 参考スコア(独自算出の注目度): 9.149661171430257
- License:
- Abstract: Neural networks have become ubiquitous in audio effects modelling, especially for guitar amplifiers and distortion pedals. One limitation of such models is that the sample rate of the training data is implicitly encoded in the model weights and therefore not readily adjustable at inference. Recent work explored modifications to recurrent neural network architecture to approximate a sample rate independent system, enabling audio processing at a rate that differs from the original training rate. This method works well for integer oversampling and can reduce aliasing caused by nonlinear activation functions. For small fractional changes in sample rate, fractional delay filters can be used to approximate sample rate independence, but in some cases this method fails entirely. Here, we explore the use of signal resampling at the input and output of the neural network as an alternative solution. We investigate several resampling filter designs and show that a two-stage design consisting of a half-band IIR filter cascaded with a Kaiser window FIR filter can give similar or better results to the previously proposed model adjustment method with many fewer operations per sample and less than one millisecond of latency at typical audio rates. Furthermore, we investigate interpolation and decimation filters for the task of integer oversampling and show that cascaded half-band IIR and FIR designs can be used in conjunction with the model adjustment method to reduce aliasing in a range of distortion effect models.
- Abstract(参考訳): ニューラルネットワークは、特にギターアンプや歪みペダルの音響効果モデリングにおいてユビキタスになっている。
このようなモデルの1つの制限は、トレーニングデータのサンプルレートがモデル重みに暗黙的に符号化されているため、推論時に容易に調整できないことである。
最近の研究は、サンプルレート独立系を近似するために、リカレントニューラルネットワークアーキテクチャの変更を検討し、元のトレーニングレートと異なるレートでオーディオ処理を可能にする。
この方法は整数オーバーサンプリングに有効であり、非線形活性化関数によるエイリアスを低減することができる。
サンプルレートの小さな分数変化に対しては、分数遅延フィルタを用いてサンプルレートの独立性を近似することができるが、場合によっては完全に失敗する。
本稿では,ニューラルネットワークの入力と出力における信号再サンプリングの利用を代替ソリューションとして検討する。
そこで本研究では,カイザーウィンドウFIRフィルタを組み込んだ半帯域IIRフィルタを用いた2段階設計により,従来提案されていたモデル調整手法と類似あるいは良好な結果が得られることを示す。
さらに,整数オーバーサンプリングタスクの補間とデシメーションフィルタについて検討し,ケースドハーフバンドIIRとFIRの設計をモデル調整法と併用することにより,歪み効果モデルの範囲でのエイリアスを低減することができることを示す。
関連論文リスト
- Filter Pruning for Efficient CNNs via Knowledge-driven Differential
Filter Sampler [103.97487121678276]
フィルタプルーニングは同時に計算を加速し、CNNのメモリオーバーヘッドを低減する。
本稿では,MFM(Masked Filter Modeling)フレームワークを用いた知識駆動型微分フィルタサンプリング(KDFS)を提案する。
論文 参考訳(メタデータ) (2023-07-01T02:28:41Z) - Boosting Fast and High-Quality Speech Synthesis with Linear Diffusion [85.54515118077825]
本稿では, 常微分方程式に基づく線形拡散モデル(LinDiff)を提案する。
計算複雑性を低減するため、LinDiffでは、入力信号を小さなパッチに分割するパッチベースの処理アプローチを採用している。
我々のモデルは、より高速な合成速度で自己回帰モデルに匹敵する品質の音声を合成することができる。
論文 参考訳(メタデータ) (2023-06-09T07:02:43Z) - ScoreMix: A Scalable Augmentation Strategy for Training GANs with
Limited Data [93.06336507035486]
GAN(Generative Adversarial Networks)は通常、限られたトレーニングデータが利用できる場合、過度に適合する。
ScoreMixは、様々な画像合成タスクのための、新しくスケーラブルなデータ拡張手法である。
論文 参考訳(メタデータ) (2022-10-27T02:55:15Z) - Simple Pooling Front-ends For Efficient Audio Classification [56.59107110017436]
入力音声特徴量における時間的冗長性を排除することは,効率的な音声分類に有効な方法である可能性が示唆された。
本稿では、単純な非パラメトリックプーリング操作を用いて冗長な情報を削減する単純なプールフロントエンド(SimPFs)のファミリーを提案する。
SimPFは、市販オーディオニューラルネットワークの浮動小数点演算数の半数以上を削減できる。
論文 参考訳(メタデータ) (2022-10-03T14:00:41Z) - ProDiff: Progressive Fast Diffusion Model For High-Quality
Text-to-Speech [63.780196620966905]
本稿では,高品質テキスト合成のためのプログレッシブ高速拡散モデルであるProDiffを提案する。
ProDiffはクリーンデータを直接予測することでデノナイジングモデルをパラメータ化し、サンプリングを高速化する際の品質劣化を回避する。
評価の結果,高忠実度メル-スペクトログラムの合成にProDiffは2回しか要しないことがわかった。
ProDiffは1つのNVIDIA 2080Ti GPU上で、サンプリング速度をリアルタイムより24倍高速にする。
論文 参考訳(メタデータ) (2022-07-13T17:45:43Z) - A neural network-supported two-stage algorithm for lightweight
dereverberation on hearing devices [13.49645012479288]
本稿では,2段階の軽量オンライン補聴器のオンライン補聴アルゴリズムについて述べる。
このアプローチは、マルチチャネルのマルチフレーム線形フィルタとシングルチャネルのシングルフレームポストフィルタを組み合わせる。
どちらのコンポーネントも、ディープニューラルネットワーク(DNN)によって提供されるパワースペクトル密度(PSD)の推定に依存している。
論文 参考訳(メタデータ) (2022-04-06T11:08:28Z) - Low Pass Filter for Anti-aliasing in Temporal Action Localization [15.139834271977913]
本稿では,時間的行動定位法におけるエイリアスの存在を検証する。
高周波帯域の抑制により低域通過フィルタを用いてこの問題を解決する。
実験により、TALにおける低域通過フィルタによるアンチエイリアシングは有利かつ効率的であることが示された。
論文 参考訳(メタデータ) (2021-04-23T03:57:34Z) - Anytime Sampling for Autoregressive Models via Ordered Autoencoding [88.01906682843618]
自動回帰モデルは画像生成や音声生成などのタスクに広く使われている。
これらのモデルのサンプリングプロセスは割り込みを許さず、リアルタイムの計算資源に適応できない。
いつでもサンプリングできる新しい自動回帰モデルファミリーを提案します。
論文 参考訳(メタデータ) (2021-02-23T05:13:16Z) - Towards Differentiable Resampling [22.92540370475242]
本稿では,新しいネットワークアーキテクチャ,パーティクル・トランスフォーマーを提案し,粒子集合上の可能性に基づく損失関数を用いて粒子再サンプリングを訓練する。
以上の結果から,我々の学習したリサンプラーは,合成データやシミュレーションロボットのローカライゼーションタスクにおいて,従来のリサンプラー技術よりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-04-24T18:37:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。