論文の概要: Deep Time Delay Neural Network for Speech Enhancement with Full Data
Learning
- arxiv url: http://arxiv.org/abs/2011.05591v1
- Date: Wed, 11 Nov 2020 06:32:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 01:08:35.189837
- Title: Deep Time Delay Neural Network for Speech Enhancement with Full Data
Learning
- Title(参考訳): フルデータ学習による音声強調のためのDeep Time Delay Neural Network
- Authors: Cunhang Fan, Bin Liu, Jianhua Tao, Jiangyan Yi, Zhengqi Wen, Leichao
Song
- Abstract要約: 本稿では,全データ学習による音声強調のためのディープタイム遅延ニューラルネットワーク(TDNN)を提案する。
トレーニングデータを完全に活用するために,音声強調のための完全なデータ学習手法を提案する。
- 参考スコア(独自算出の注目度): 60.20150317299749
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recurrent neural networks (RNNs) have shown significant improvements in
recent years for speech enhancement. However, the model complexity and
inference time cost of RNNs are much higher than deep feed-forward neural
networks (DNNs). Therefore, these limit the applications of speech enhancement.
This paper proposes a deep time delay neural network (TDNN) for speech
enhancement with full data learning. The TDNN has excellent potential for
capturing long range temporal contexts, which utilizes a modular and
incremental design. Besides, the TDNN preserves the feed-forward structure so
that its inference cost is comparable to standard DNN. To make full use of the
training data, we propose a full data learning method for speech enhancement.
More specifically, we not only use the noisy-to-clean (input-to-target) to
train the enhanced model, but also the clean-to-clean and noise-to-silence
data. Therefore, all of the training data can be used to train the enhanced
model. Our experiments are conducted on TIMIT dataset. Experimental results
show that our proposed method could achieve a better performance than DNN and
comparable even better performance than BLSTM. Meanwhile, compared with the
BLSTM, the proposed method drastically reduce the inference time.
- Abstract(参考訳): リカレントニューラルネットワーク(RNN)は近年,音声強調のために大幅に改善されている。
しかしながら、RNNのモデル複雑性と推論時間コストは、ディープフィードフォワードニューラルネットワーク(DNN)よりもはるかに高い。
これにより、音声強調の応用が制限される。
本稿では,全データ学習による音声強調のためのディープタイム遅延ニューラルネットワーク(TDNN)を提案する。
TDNNは、モジュール的でインクリメンタルな設計である、長期の時間的コンテキストをキャプチャする優れた可能性を秘めている。
さらに、TDNNはフィードフォワード構造を保持し、その推論コストは標準のDNNに匹敵する。
トレーニングデータを完全に活用するために,音声強調のための完全なデータ学習手法を提案する。
より具体的には、拡張されたモデルをトレーニングするためにノイズ・トゥ・クリーン(インプット・トゥ・ターゲット)を使用するだけでなく、クリーン・トゥ・クリーン・ノイズ・トゥ・サイレンスデータも使用します。
したがって、トレーニングデータはすべて、強化モデルのトレーニングに使用することができる。
TIMITデータセットを用いて実験を行った。
実験の結果,提案手法はDNNよりも優れた性能を示し,BLSTMよりも優れた性能が得られることがわかった。
一方,BLSTMと比較して,提案手法は推定時間を劇的に短縮する。
関連論文リスト
- BKDSNN: Enhancing the Performance of Learning-based Spiking Neural Networks Training with Blurred Knowledge Distillation [20.34272550256856]
スパイキングニューラルネットワーク(SNN)は、生物学的ニューラルネットワークを模倣し、離散スパイクを介して情報を伝達する。
本研究は,静的およびニューロモルフィックなデータセット上でSNNをトレーニングするための最先端性能を実現する。
論文 参考訳(メタデータ) (2024-07-12T08:17:24Z) - Direct Training Needs Regularisation: Anytime Optimal Inference Spiking Neural Network [23.434563009813218]
スパイキングニューラルネットワーク(SNN)は,次世代のニューラルネットワーク(ANN)として認識される
空間時間正規化(STR)と呼ばれる新しい正規化手法を導入する。
STRは各段階におけるスパイクの強さと膜電位の比を調節する。
これは、トレーニング中の空間的および時間的パフォーマンスを効果的にバランスさせ、最終的にはAnytime Optimal Inference (AOI) SNNとなる。
論文 参考訳(メタデータ) (2024-04-15T15:57:01Z) - Optimising Event-Driven Spiking Neural Network with Regularisation and
Cutoff [33.91830001268308]
スパイキングニューラルネットワーク(SNN)は、計算効率を有望に改善する。
現在のSNNトレーニング手法は、主に固定時間ステップアプローチを採用している。
本稿では,効率的な推論を実現するために,推論中にいつでもSNNを終了できるSNNの遮断を検討することを提案する。
論文 参考訳(メタデータ) (2023-01-23T16:14:09Z) - Online Training Through Time for Spiking Neural Networks [66.7744060103562]
スパイキングニューラルネットワーク(SNN)は、脳にインスパイアされたエネルギー効率のモデルである。
近年のトレーニング手法の進歩により、レイテンシの低い大規模タスクにおいて、ディープSNNを成功させることができた。
本稿では,BPTT から派生した SNN の時間的学習(OTTT)によるオンライントレーニングを提案する。
論文 参考訳(メタデータ) (2022-10-09T07:47:56Z) - Adaptive-SpikeNet: Event-based Optical Flow Estimation using Spiking
Neural Networks with Learnable Neuronal Dynamics [6.309365332210523]
ニューラルインスパイアされたイベント駆動処理でニューラルネットワーク(SNN)をスパイクすることで、非同期データを効率的に処理できる。
スパイク消滅問題を緩和するために,学習可能な神経力学を用いた適応型完全スパイキングフレームワークを提案する。
実験の結果,平均終端誤差(AEE)は最先端のANNと比較して平均13%減少した。
論文 参考訳(メタデータ) (2022-09-21T21:17:56Z) - Recurrent Bilinear Optimization for Binary Neural Networks [58.972212365275595]
BNNは、実数値重みとスケールファクターの内在的双線型関係を無視している。
私たちの仕事は、双線形の観点からBNNを最適化する最初の試みです。
我々は、様々なモデルやデータセット上で最先端のBNNに対して印象的な性能を示す頑健なRBONNを得る。
論文 参考訳(メタデータ) (2022-09-04T06:45:33Z) - Training High-Performance Low-Latency Spiking Neural Networks by
Differentiation on Spike Representation [70.75043144299168]
スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックハードウェア上に実装された場合、有望なエネルギー効率のAIモデルである。
非分化性のため、SNNを効率的に訓練することは困難である。
本稿では,ハイパフォーマンスを実現するスパイク表現法(DSR)の差分法を提案する。
論文 参考訳(メタデータ) (2022-05-01T12:44:49Z) - Progressive Tandem Learning for Pattern Recognition with Deep Spiking
Neural Networks [80.15411508088522]
スパイキングニューラルネットワーク(SNN)は、低レイテンシと高い計算効率のために、従来の人工知能ニューラルネットワーク(ANN)よりも優位性を示している。
高速かつ効率的なパターン認識のための新しいANN-to-SNN変換およびレイヤワイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-02T15:38:44Z) - Temporal Calibrated Regularization for Robust Noisy Label Learning [60.90967240168525]
ディープニューラルネットワーク(DNN)は、大規模な注釈付きデータセットの助けを借りて、多くのタスクで大きな成功を収めている。
しかし、大規模なデータのラベル付けは非常にコストがかかりエラーが発生しやすいため、アノテーションの品質を保証することは困難である。
本稿では,従来のラベルと予測を併用したTCR(Temporal Calibrated Regularization)を提案する。
論文 参考訳(メタデータ) (2020-07-01T04:48:49Z) - Exploring Pre-training with Alignments for RNN Transducer based
End-to-End Speech Recognition [39.497407288772386]
リカレントニューラルネットワークトランスデューサ(RNN-T)アーキテクチャは、エンドツーエンドの自動音声認識研究において、新たなトレンドとなっている。
本研究では、外部アライメントを活用してRNN-Tモデルをシードする。
エンコーダ事前学習(encoder pre-training)と全ネットワーク事前学習( whole-network pre-training)と呼ばれる2つの異なる事前学習ソリューションが検討されている。
論文 参考訳(メタデータ) (2020-05-01T19:00:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。