論文の概要: Frequency Gating: Improved Convolutional Neural Networks for Speech
Enhancement in the Time-Frequency Domain
- arxiv url: http://arxiv.org/abs/2011.04092v1
- Date: Sun, 8 Nov 2020 22:04:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 08:27:32.171725
- Title: Frequency Gating: Improved Convolutional Neural Networks for Speech
Enhancement in the Time-Frequency Domain
- Title(参考訳): 周波数ゲーティング:時間周波数領域における音声強調のための畳み込みニューラルネットワークの改良
- Authors: Koen Oostermeijer, Qing Wang and Jun Du
- Abstract要約: 本稿では、CNNのカーネルの乗算重みを計算するために、周波数ゲーティングと呼ばれる手法を提案する。
スキップ接続を用いたオートエンコーダニューラルネットワークの実験では、局所的および周波数的にゲーティングの両方がベースラインを上回っている。
拡張短時間客観的インテリジェンススコア(ESTOI)に基づく損失関数を導入し、標準平均二乗誤差(MSE)損失関数より優れていることを示す。
- 参考スコア(独自算出の注目度): 37.722450363816144
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of the strengths of traditional convolutional neural networks (CNNs) is
their inherent translational invariance. However, for the task of speech
enhancement in the time-frequency domain, this property cannot be fully
exploited due to a lack of invariance in the frequency direction. In this paper
we propose to remedy this inefficiency by introducing a method, which we call
Frequency Gating, to compute multiplicative weights for the kernels of the CNN
in order to make them frequency dependent. Several mechanisms are explored:
temporal gating, in which weights are dependent on prior time frames, local
gating, whose weights are generated based on a single time frame and the ones
adjacent to it, and frequency-wise gating, where each kernel is assigned a
weight independent of the input data. Experiments with an autoencoder neural
network with skip connections show that both local and frequency-wise gating
outperform the baseline and are therefore viable ways to improve CNN-based
speech enhancement neural networks. In addition, a loss function based on the
extended short-time objective intelligibility score (ESTOI) is introduced,
which we show to outperform the standard mean squared error (MSE) loss
function.
- Abstract(参考訳): 従来の畳み込みニューラルネットワーク(CNN)の強みの1つは、その固有の翻訳不変性である。
しかし、時間周波数領域における音声強調作業では、周波数方向の不均一性の欠如により、この特性を完全に活用することはできない。
本稿では、周波数ゲーティングと呼ばれる手法を導入し、cnnのカーネルの乗算重みを計算し、周波数依存性を持たせることで、この非効率性を改善することを提案する。
事前の時間フレームに重みが依存する時制ゲーティング、単一の時間フレームとその隣の時間フレームに基づいて重みが生成されるローカルゲーティング、各カーネルが入力データに依存しない重みを割り当てる周波数方向ゲーティングなど、いくつかのメカニズムが検討されている。
スキップ接続を用いたオートエンコーダニューラルネットワークの実験では、局所的および周波数的にゲーティングがベースラインより優れており、CNNベースの音声強調ニューラルネットワークを改善するための有効な方法であることが示された。
さらに,拡張短時間客観的インテリジェンススコア(ESTOI)に基づく損失関数を導入し,標準平均二乗誤差(MSE)損失関数より優れていることを示す。
関連論文リスト
- Fitting Auditory Filterbanks with Multiresolution Neural Networks [4.944919495794613]
マルチレゾリューションニューラルネットワーク(MuReNN)というニューラルオーディオモデルを導入する。
MuReNNの鍵となる考え方は、離散ウェーブレット変換(DWT)のオクターブ部分バンド上で、分離畳み込み演算子を訓練することである。
与えられた実世界のデータセットに対して、よく確立された聴覚フィルタバンクのそれに対して、MuReNNのマグニチュードレスポンスを適合させる。
論文 参考訳(メタデータ) (2023-07-25T21:20:12Z) - Vocos: Closing the gap between time-domain and Fourier-based neural vocoders for high-quality audio synthesis [1.4277428617774877]
フーリエスペクトル係数を直接生成する新しいモデルであるVocosを提案する。
計算効率を大幅に向上し、時間領域のニューラルネットワークのボコーディングアプローチに比べて、桁違いにスピードが向上する。
論文 参考訳(メタデータ) (2023-06-01T15:40:32Z) - A Scalable Walsh-Hadamard Regularizer to Overcome the Low-degree
Spectral Bias of Neural Networks [79.28094304325116]
任意の関数を学習するニューラルネットワークの能力にもかかわらず、勾配降下によって訓練されたモデルは、しばしばより単純な関数に対するバイアスを示す。
我々は、この低度周波数に対するスペクトルバイアスが、現実のデータセットにおけるニューラルネットワークの一般化を実際にいかに損なうかを示す。
本稿では,ニューラルネットワークによる高次周波数学習を支援する,スケーラブルな機能正規化手法を提案する。
論文 参考訳(メタデータ) (2023-05-16T20:06:01Z) - Properties and Potential Applications of Random Functional-Linked Types
of Neural Networks [81.56822938033119]
ランダム関数リンクニューラルネットワーク(RFLNN)は、深い構造を学習する別の方法を提供する。
本稿では周波数領域の観点からRFLNNの特性について考察する。
本稿では,より優れた性能でBLSネットワークを生成する手法を提案し,ポゾン方程式を解くための効率的なアルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-04-03T13:25:22Z) - NAF: Neural Attenuation Fields for Sparse-View CBCT Reconstruction [79.13750275141139]
本稿では,スパースビューCBCT再構成のための新規かつ高速な自己教師型ソリューションを提案する。
所望の減衰係数は、3次元空間座標の連続関数として表現され、完全に接続されたディープニューラルネットワークによってパラメータ化される。
ハッシュ符号化を含む学習ベースのエンコーダが採用され、ネットワークが高周波の詳細をキャプチャするのに役立つ。
論文 参考訳(メタデータ) (2022-09-29T04:06:00Z) - TFN: An Interpretable Neural Network with Time-Frequency Transform
Embedded for Intelligent Fault Diagnosis [6.812133175214715]
畳み込みニューラルネットワーク(CNN)は機械系の故障診断に広く用いられている。
本稿では,時間周波数ネットワーク(TFN, Time-Frequency Network)と呼ばれる新しい解釈可能なニューラルネットワークを提案し,物理的に有意な時間周波数変換(TFT)法を適応前処理層として従来の畳み込み層に組み込む。
本研究では, TFNを定式化する4つの典型的なTFT法について検討し, 3つの機械的故障診断実験によりその妥当性と解釈性を示した。
論文 参考訳(メタデータ) (2022-09-05T14:48:52Z) - Spike-inspired Rank Coding for Fast and Accurate Recurrent Neural
Networks [5.986408771459261]
生物学的スパイクニューラルネットワーク(SNN)は、その出力の情報を時間的にエンコードすることができるが、人工ニューラルネットワーク(ANN)は従来はそうではない。
ここでは、SNNにインスパイアされたランク符号化(RC)のような時間符号化が、LSTMなどの従来のANNにも適用可能であることを示す。
RCトレーニングは推論中の時間と監視を著しく低減し、精度は最小限に抑えられる。
逐次分類の2つのおもちゃ問題と、最初の入力時間ステップ後にRCモデルが99.19%の精度を達成できる時間符号化MNISTデータセットにおいて、これらを実証する。
論文 参考訳(メタデータ) (2021-10-06T15:51:38Z) - On Addressing Practical Challenges for RNN-Transduce [72.72132048437751]
オーディオデータを収集することなく、よく訓練されたRNN-Tモデルを新しいドメインに適応します。
復号時に計算された複数の特徴を利用して単語レベルの信頼度を求める。
提案手法では,平均で50ms以下の単語のタイミング差が得られる。
論文 参考訳(メタデータ) (2021-04-27T23:31:43Z) - Multi-Tones' Phase Coding (MTPC) of Interaural Time Difference by
Spiking Neural Network [68.43026108936029]
雑音の多い実環境下での正確な音像定位のための純粋スパイクニューラルネットワーク(SNN)に基づく計算モデルを提案する。
このアルゴリズムを,マイクロホンアレイを用いたリアルタイムロボットシステムに実装する。
実験の結果, 平均誤差方位は13度であり, 音源定位に対する他の生物学的に妥当なニューロモルフィックアプローチの精度を上回っていることがわかった。
論文 参考訳(メタデータ) (2020-07-07T08:22:56Z) - Robust Learning with Frequency Domain Regularization [1.370633147306388]
モデルのフィルタの周波数スペクトルを制約し,新しい正規化手法を提案する。
本研究では,(1)対向的摂動を抑えること,(2)異なるアーキテクチャにおける一般化のギャップを小さくすること,(3)微調整を伴わない伝達学習シナリオにおける一般化能力を向上させることによる正規化の有効性を実証する。
論文 参考訳(メタデータ) (2020-07-07T07:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。