論文の概要: Fitting Auditory Filterbanks with Multiresolution Neural Networks
- arxiv url: http://arxiv.org/abs/2307.13821v1
- Date: Tue, 25 Jul 2023 21:20:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-27 14:15:01.552026
- Title: Fitting Auditory Filterbanks with Multiresolution Neural Networks
- Title(参考訳): 多分解能ニューラルネットワークによる聴覚フィルタバンクの適合
- Authors: Vincent Lostanlen, Daniel Haider, Han Han, Mathieu Lagrange, Peter
Balazs, Martin Ehler
- Abstract要約: マルチレゾリューションニューラルネットワーク(MuReNN)というニューラルオーディオモデルを導入する。
MuReNNの鍵となる考え方は、離散ウェーブレット変換(DWT)のオクターブ部分バンド上で、分離畳み込み演算子を訓練することである。
与えられた実世界のデータセットに対して、よく確立された聴覚フィルタバンクのそれに対して、MuReNNのマグニチュードレスポンスを適合させる。
- 参考スコア(独自算出の注目度): 4.944919495794613
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Waveform-based deep learning faces a dilemma between nonparametric and
parametric approaches. On one hand, convolutional neural networks (convnets)
may approximate any linear time-invariant system; yet, in practice, their
frequency responses become more irregular as their receptive fields grow. On
the other hand, a parametric model such as LEAF is guaranteed to yield Gabor
filters, hence an optimal time-frequency localization; yet, this strong
inductive bias comes at the detriment of representational capacity. In this
paper, we aim to overcome this dilemma by introducing a neural audio model,
named multiresolution neural network (MuReNN). The key idea behind MuReNN is to
train separate convolutional operators over the octave subbands of a discrete
wavelet transform (DWT). Since the scale of DWT atoms grows exponentially
between octaves, the receptive fields of the subsequent learnable convolutions
in MuReNN are dilated accordingly. For a given real-world dataset, we fit the
magnitude response of MuReNN to that of a well-established auditory filterbank:
Gammatone for speech, CQT for music, and third-octave for urban sounds,
respectively. This is a form of knowledge distillation (KD), in which the
filterbank ''teacher'' is engineered by domain knowledge while the neural
network ''student'' is optimized from data. We compare MuReNN to the state of
the art in terms of goodness of fit after KD on a hold-out set and in terms of
Heisenberg time-frequency localization. Compared to convnets and Gabor
convolutions, we find that MuReNN reaches state-of-the-art performance on all
three optimization problems.
- Abstract(参考訳): 波形ベースのディープラーニングは、非パラメトリックアプローチとパラメトリックアプローチのジレンマに直面します。
一方、畳み込みニューラルネットワーク(畳み込みニューラルネットワーク)は任意の線形時間不変系を近似することができるが、実際には、受容場が成長するにつれて周波数応答がより不規則になる。
一方、LEAFのようなパラメトリックモデルではガボルフィルタが得られることが保証され、したがって時間周波数の局所化が最適となるが、この強い帰納バイアスは表現能力の低下に起因している。
本稿では,このジレンマを克服するために,マルチレゾリューションニューラルネットワーク(murenn)と呼ばれるニューラルオーディオモデルを導入する。
MuReNNの鍵となるアイデアは、離散ウェーブレット変換(DWT)のオクターブサブバンド上で、分離した畳み込み演算子を訓練することである。
DWT原子のスケールはオクターブ間で指数関数的に増大するので、その後の MuReNN における学習可能な畳み込みの受容場が拡張される。
実世界のデータセットでは、よく確立された聴覚フィルタバンク(音声用ガンマトイン、音楽用CQT、都市音用3オクターブ)にMuReNNの大きさの応答を合わせる。
これは知識蒸留(KD)の一種であり、フィルターバンクの'教師'はドメイン知識によって設計され、ニューラルネットワークの'学生'はデータから最適化される。
我々はMuReNNをホールドアウトセットにおけるKD後の適合の良さとハイゼンベルク時間周波数の局所化の観点から比較した。
コンブネットやGaborの畳み込みと比較して、MuReNNは3つの最適化問題すべてにおいて最先端の性能に達する。
関連論文リスト
- Accurate Mapping of RNNs on Neuromorphic Hardware with Adaptive Spiking Neurons [2.9410174624086025]
我々は、SigmaDelta$-low-pass RNN(lpRNN)を、レートベースのRNNをスパイクニューラルネットワーク(SNN)にマッピングするために提示する。
適応スパイキングニューロンモデルは、$SigmaDelta$-modulationを使って信号を符号化し、正確なマッピングを可能にする。
我々は、Intelのニューロモルフィック研究チップLoihiにおけるlpRNNの実装を実演する。
論文 参考訳(メタデータ) (2024-07-18T14:06:07Z) - Deepfake Audio Detection Using Spectrogram-based Feature and Ensemble of Deep Learning Models [42.39774323584976]
本稿では,ディープフェイク音声検出作業のためのディープラーニングベースシステムを提案する。
特に、ドロー入力オーディオは、まず様々なスペクトログラムに変換される。
我々は、Whisper、Seamless、Speechbrain、Pyannoteといった最先端のオーディオ事前訓練モデルを利用して、オーディオ埋め込みを抽出する。
論文 参考訳(メタデータ) (2024-07-01T20:10:43Z) - Instabilities in Convnets for Raw Audio [1.5060156580765574]
ランダムなガウス重みを持つFIRフィルタバンクのエネルギー応答に対する大きな偏差の理論を示す。
大規模なフィルタや局所的な周期的な入力信号の偏差が悪化することが判明した。
数値シミュレーションは我々の理論と一致し、畳み込み層の条件数は対数スケーリング法則に従うことを示唆する。
論文 参考訳(メタデータ) (2023-09-11T22:34:06Z) - Speed Limits for Deep Learning [67.69149326107103]
熱力学の最近の進歩は、初期重量分布から完全に訓練されたネットワークの最終分布への移動速度の制限を可能にする。
線形および線形化可能なニューラルネットワークに対して,これらの速度制限に対する解析式を提供する。
NTKスペクトルとラベルのスペクトル分解に関するいくつかの妥当なスケーリング仮定を考えると、学習はスケーリングの意味で最適である。
論文 参考訳(メタデータ) (2023-07-27T06:59:46Z) - Spiking Neural Network Decision Feedback Equalization [70.3497683558609]
決定フィードバック等化器(DFE)に似たフィードバック構造を持つSNNベースの等化器を提案する。
提案手法は,3種類の模範チャネルに対して,従来の線形等化器よりも明らかに優れていることを示す。
決定フィードバック構造を持つSNNは、競合エネルギー効率の良いトランシーバへのパスを可能にする。
論文 参考訳(メタデータ) (2022-11-09T09:19:15Z) - Bayesian Neural Network Language Modeling for Speech Recognition [59.681758762712754]
長期記憶リカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端のニューラルネットワーク言語モデル(NNLM)は非常に複雑になりつつある。
本稿では,LSTM-RNN と Transformer LM の基盤となる不確実性を考慮するために,ベイズ学習フレームワークの全体構造を提案する。
論文 参考訳(メタデータ) (2022-08-28T17:50:19Z) - Deep Time Delay Neural Network for Speech Enhancement with Full Data
Learning [60.20150317299749]
本稿では,全データ学習による音声強調のためのディープタイム遅延ニューラルネットワーク(TDNN)を提案する。
トレーニングデータを完全に活用するために,音声強調のための完全なデータ学習手法を提案する。
論文 参考訳(メタデータ) (2020-11-11T06:32:37Z) - Frequency Gating: Improved Convolutional Neural Networks for Speech
Enhancement in the Time-Frequency Domain [37.722450363816144]
本稿では、CNNのカーネルの乗算重みを計算するために、周波数ゲーティングと呼ばれる手法を提案する。
スキップ接続を用いたオートエンコーダニューラルネットワークの実験では、局所的および周波数的にゲーティングの両方がベースラインを上回っている。
拡張短時間客観的インテリジェンススコア(ESTOI)に基づく損失関数を導入し、標準平均二乗誤差(MSE)損失関数より優れていることを示す。
論文 参考訳(メタデータ) (2020-11-08T22:04:00Z) - Multi-Tones' Phase Coding (MTPC) of Interaural Time Difference by
Spiking Neural Network [68.43026108936029]
雑音の多い実環境下での正確な音像定位のための純粋スパイクニューラルネットワーク(SNN)に基づく計算モデルを提案する。
このアルゴリズムを,マイクロホンアレイを用いたリアルタイムロボットシステムに実装する。
実験の結果, 平均誤差方位は13度であり, 音源定位に対する他の生物学的に妥当なニューロモルフィックアプローチの精度を上回っていることがわかった。
論文 参考訳(メタデータ) (2020-07-07T08:22:56Z) - Depthwise Separable Convolutions Versus Recurrent Neural Networks for
Monaural Singing Voice Separation [17.358040670413505]
我々は歌声分離に重点を置き、RNNアーキテクチャを採用し、RNNをDWS畳み込み(DWS-CNN)に置き換える。
本稿では,DWS-CNNのチャネル数と層数による音源分離性能への影響について検討する。
その結果、RNNをDWS-CNNに置き換えることで、RNNアーキテクチャのパラメータの20.57%しか使用せず、それぞれ1.20、0.06、0.37dBの改善が得られることがわかった。
論文 参考訳(メタデータ) (2020-07-06T12:32:34Z) - Approximation and Non-parametric Estimation of ResNet-type Convolutional
Neural Networks [52.972605601174955]
本稿では,ResNet型CNNが重要な関数クラスにおいて最小誤差率を達成可能であることを示す。
Barron と H'older のクラスに対する前述のタイプの CNN の近似と推定誤差率を導出する。
論文 参考訳(メタデータ) (2019-03-24T19:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。