論文の概要: SNR-Based Features and Diverse Training Data for Robust DNN-Based Speech
Enhancement
- arxiv url: http://arxiv.org/abs/2004.03512v2
- Date: Sat, 15 May 2021 14:04:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 00:59:11.498848
- Title: SNR-Based Features and Diverse Training Data for Robust DNN-Based Speech
Enhancement
- Title(参考訳): 頑健なDNN音声強調のためのSNR特徴量とディバーストレーニングデータ
- Authors: Robert Rehr, Timo Gerkmann
- Abstract要約: 本研究では,(1)トレーニングデータのサイズと多様性,(2)異なるネットワークアーキテクチャ,(3)選択した特徴に関する一般化を解析する。
実験結果と, t-distributed neighbor embedded (t-SNE) を用いた解析により, 提案したSNR-NAT特徴が不明瞭な雑音に対して頑健かつレベルに依存しない結果をもたらすことを示す。
- 参考スコア(独自算出の注目度): 21.346342164530967
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we address the generalization of deep neural network (DNN)
based speech enhancement to unseen noise conditions for the case that training
data is limited in size and diversity. To gain more insights, we analyze the
generalization with respect to (1) the size and diversity of the training data,
(2) different network architectures, and (3) the chosen features. To address
(1), we train networks on the Hu noise corpus (limited size), the CHiME 3 noise
corpus (limited diversity) and also propose a large and diverse dataset
collected based on freely available sounds. To address (2), we compare a
fully-connected feed-forward and a long short-term memory (LSTM) architecture.
To address (3), we compare three input features, namely logarithmized noisy
periodograms, noise aware training (NAT) and the proposed signal-to-noise ratio
(SNR) based noise aware training (SNR-NAT). We confirm that rich training data
and improved network architectures help DNNs to generalize. Furthermore, we
show via experimental results and an analysis using t-distributed stochastic
neighbor embedding (t-SNE) that the proposed SNR-NAT features yield robust and
level independent results in unseen noise even with simple network
architectures and when trained on only small datasets, which is the key
contribution of this paper.
- Abstract(参考訳): 本稿では,学習データのサイズと多様性に制限がある場合の雑音条件に対するディープニューラルネットワーク(DNN)に基づく音声強調の一般化について述べる。
さらなる知見を得るために,(1)訓練データのサイズと多様性,(2)異なるネットワークアーキテクチャ,(3)選択した特徴について一般化を分析する。
そこで,(1)は,huノイズコーパス(限定サイズ),chime 3ノイズコーパス(限定ダイバーシティ)でネットワークをトレーニングし,自由可聴音に基づいて収集した大規模かつ多様なデータセットを提案する。
2) に対処するため,完全接続型フィードフォワードと長短期メモリ(LSTM)アーキテクチャを比較した。
(3)に対処するために、対数化雑音周期図、ノイズアウェアネストレーニング(NAT)、およびSNRに基づくノイズアウェアネストレーニング(SNR-NAT)の3つの入力特徴を比較した。
リッチなトレーニングデータと改良されたネットワークアーキテクチャがDNNの一般化に役立つことを確認します。
さらに, 実験結果とt分散確率的近傍埋め込み (t-SNE) を用いた解析により, 提案するSNR-NAT特徴は, 単純なネットワークアーキテクチャにおいても, かつ, 小さいデータセットでのみトレーニングした場合においても, 頑健かつレベルに依存しないノイズを生じさせることを示した。
関連論文リスト
- Dual input neural networks for positional sound source localization [19.07039703121673]
本稿では、これらの2つのデータ型をニューラルネットワークでモデル化するための、単純かつ効果的な方法として、Dual Input Neural Networks(DI-NN)を紹介する。
難易度と現実性の異なるシナリオに基づいて提案したDI-NNをトレーニングし、評価し、代替アーキテクチャと比較する。
以上の結果から,DI-NNはLS法よりも5倍,CRNNより2倍低い位置推定誤差を達成できることがわかった。
論文 参考訳(メタデータ) (2023-08-08T09:59:56Z) - Sequential Learning from Noisy Data: Data-Assimilation Meets Echo-State
Network [0.0]
アンサンブルカルマンフィルタを用いた雑音観測を取り入れたエコー状態ネットワーク(ESN)のためのシーケンシャルトレーニングアルゴリズムを開発した。
その結果、カルマン訓練されたエコー状態ネットワーク(KalT-ESN)は、計算コストを抑えながら、最小二乗アルゴリズムで従来の訓練されたESNよりも優れていた。
論文 参考訳(メタデータ) (2023-04-01T02:03:08Z) - Neural Attentive Circuits [93.95502541529115]
我々は、NAC(Neural Attentive Circuits)と呼ばれる汎用的でモジュラーなニューラルアーキテクチャを導入する。
NACは、ドメイン知識を使わずに、ニューラルネットワークモジュールのパラメータ化と疎結合を学習する。
NACは推論時に8倍のスピードアップを達成するが、性能は3%以下である。
論文 参考訳(メタデータ) (2022-10-14T18:00:07Z) - Bayesian Neural Network Language Modeling for Speech Recognition [59.681758762712754]
長期記憶リカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端のニューラルネットワーク言語モデル(NNLM)は非常に複雑になりつつある。
本稿では,LSTM-RNN と Transformer LM の基盤となる不確実性を考慮するために,ベイズ学習フレームワークの全体構造を提案する。
論文 参考訳(メタデータ) (2022-08-28T17:50:19Z) - Neural Implicit Dictionary via Mixture-of-Expert Training [111.08941206369508]
ニューラルインシシット辞書(NID)を学習することで、データとトレーニング効率の両方を達成する汎用INRフレームワークを提案する。
我々のNIDは、所望の関数空間にまたがるように調整された座標ベースのImpworksのグループを組み立てる。
実験の結果,NIDは最大98%の入力データで2次元画像や3次元シーンの再現を2桁高速化できることがわかった。
論文 参考訳(メタデータ) (2022-07-08T05:07:19Z) - A Comparative Study on Robust Graph Neural Networks to Structural Noises [12.44737954516764]
グラフニューラルネットワーク(GNN)は、近隣ノード間のメッセージの転送と集約によってノード表現を学習する。
GNNは、グラフ全体を通してノイズが伝播する可能性のあるメッセージパッシング機構のため、構造的なノイズに対して脆弱である可能性がある。
我々は、一貫した構造的雑音条件下で、様々な種類の頑健なGNNについて包括的で体系的な比較研究を行う。
論文 参考訳(メタデータ) (2021-12-11T21:01:29Z) - Deep Networks for Direction-of-Arrival Estimation in Low SNR [89.45026632977456]
我々は,真の配列多様体行列の変異チャネルデータから学習した畳み込みニューラルネットワーク(CNN)を導入する。
我々は低SNR体制でCNNを訓練し、すべてのSNRでDoAを予測する。
私たちの堅牢なソリューションは、ワイヤレスアレイセンサーから音響マイクロフォンやソナーまで、いくつかの分野に適用できます。
論文 参考訳(メタデータ) (2020-11-17T12:52:18Z) - Deep Time Delay Neural Network for Speech Enhancement with Full Data
Learning [60.20150317299749]
本稿では,全データ学習による音声強調のためのディープタイム遅延ニューラルネットワーク(TDNN)を提案する。
トレーニングデータを完全に活用するために,音声強調のための完全なデータ学習手法を提案する。
論文 参考訳(メタデータ) (2020-11-11T06:32:37Z) - Multi-Tones' Phase Coding (MTPC) of Interaural Time Difference by
Spiking Neural Network [68.43026108936029]
雑音の多い実環境下での正確な音像定位のための純粋スパイクニューラルネットワーク(SNN)に基づく計算モデルを提案する。
このアルゴリズムを,マイクロホンアレイを用いたリアルタイムロボットシステムに実装する。
実験の結果, 平均誤差方位は13度であり, 音源定位に対する他の生物学的に妥当なニューロモルフィックアプローチの精度を上回っていることがわかった。
論文 参考訳(メタデータ) (2020-07-07T08:22:56Z) - Depthwise Separable Convolutions Versus Recurrent Neural Networks for
Monaural Singing Voice Separation [17.358040670413505]
我々は歌声分離に重点を置き、RNNアーキテクチャを採用し、RNNをDWS畳み込み(DWS-CNN)に置き換える。
本稿では,DWS-CNNのチャネル数と層数による音源分離性能への影響について検討する。
その結果、RNNをDWS-CNNに置き換えることで、RNNアーキテクチャのパラメータの20.57%しか使用せず、それぞれ1.20、0.06、0.37dBの改善が得られることがわかった。
論文 参考訳(メタデータ) (2020-07-06T12:32:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。