論文の概要: Utterance Weighted Multi-Dilation Temporal Convolutional Networks for
Monaural Speech Dereverberation
- arxiv url: http://arxiv.org/abs/2205.08455v1
- Date: Tue, 17 May 2022 15:56:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-18 16:14:42.727426
- Title: Utterance Weighted Multi-Dilation Temporal Convolutional Networks for
Monaural Speech Dereverberation
- Title(参考訳): 単音節発声のための重み付け重み付き重み付き時間畳み込みネットワーク
- Authors: William Ravenscroft and Stefan Goetze and Thomas Hain
- Abstract要約: 時間的畳み込みネットワーク(TCN)における標準深度分割畳み込みを置き換えるため、重み付き多重ディレーション深度分離畳み込みを提案する。
この重み付き多重拡散時間畳み込みネットワーク(WD-TCN)は、様々なモデル構成において、TCNを一貫して上回っている。
- 参考スコア(独自算出の注目度): 26.94528951545861
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech dereverberation is an important stage in many speech technology
applications. Recent work in this area has been dominated by deep neural
network models. Temporal convolutional networks (TCNs) are deep learning models
that have been proposed for sequence modelling in the task of dereverberating
speech. In this work a weighted multi-dilation depthwise-separable convolution
is proposed to replace standard depthwise-separable convolutions in TCN models.
This proposed convolution enables the TCN to dynamically focus on more or less
local information in its receptive field at each convolutional block in the
network. It is shown that this weighted multi-dilation temporal convolutional
network (WD-TCN) consistently outperforms the TCN across various model
configurations and using the WD-TCN model is a more parameter efficient method
to improve the performance of the model than increasing the number of
convolutional blocks. The best performance improvement over the baseline TCN is
0.55 dB scale-invariant signal-to-distortion ratio (SISDR) and the best
performing WD-TCN model attains 12.26 dB SISDR on the WHAMR dataset.
- Abstract(参考訳): 多くの音声技術の応用において、発声は重要な段階である。
この領域における最近の研究は、ディープニューラルネットワークモデルによって支配されている。
時間畳み込みネットワーク (TCN) は, 音声の除去作業におけるシーケンスモデリングのための深層学習モデルである。
本研究では、tcnモデルにおける標準深度分割畳み込みを置き換えるために、重み付き多重拡張深さ分離畳み込みが提案されている。
提案した畳み込みにより,ネットワーク内の各畳み込みブロックの受容領域において,TNはローカル情報を多かれ少なかれ動的に重視することができる。
この重み付き多重拡散時間畳み込みネットワーク(WD-TCN)は,様々なモデル構成において一貫してTCNより優れており,WD-TCNモデルを用いることで,畳み込みブロックの数を増やすよりもモデルの性能を向上させるためのパラメータ効率の良い手法であることが示されている。
ベースラインTCNに対する最高の性能改善は、0.55dBスケール不変信号-歪み比(SISDR)であり、WD-TCNモデルはWHAMRデータセット上で12.26dB SISDRに達する。
関連論文リスト
- An Adaptive Latent Factorization of Tensors Model for Embedding Dynamic Communication Network [15.577058568902272]
Dynamic Communication Network (DCN) は、様々な通信ノード間の時間的相互作用を記述する。
本稿では,適応時間依存型低ランク表現モデル(ATT)を提案する。
実世界のDCN4つの実験結果から,提案したATTモデルは予測誤差と収束ラウンドの両方において,最先端のモデルを著しく上回っていることが示された。
論文 参考訳(メタデータ) (2024-08-29T14:40:32Z) - DCNv3: Towards Next Generation Deep Cross Network for CTR Prediction [17.19859591493946]
本稿では,次世代のディープクロスネットワークであるディープクロスネットワークv3(DCNv3)と,CTR予測のための2つのサブネットワークであるリニアクロスネットワーク(LCN)と指数クロスネットワーク(ECN)を提案する。
6つのデータセットに関する総合的な実験は、DCNv3の有効性、効率、解釈可能性を示している。
論文 参考訳(メタデータ) (2024-07-18T09:49:13Z) - TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - Deformable Temporal Convolutional Networks for Monaural Noisy
Reverberant Speech Separation [26.94528951545861]
音声分離モデルは、多くの音声処理アプリケーションにおいて、個々の話者を分離するために使用される。
ディープラーニングモデルは、多くの音声分離ベンチマークにおける最先端(SOTA)結果につながることが示されている。
時間畳み込みネットワーク(TCN)として知られるそのようなモデルの1つは、音声分離タスクにおいて有望な結果を示している。
近年,TNの最適なRFは,音声信号の残響特性によって異なることが明らかにされている。
論文 参考訳(メタデータ) (2022-10-27T10:29:19Z) - Receptive Field Analysis of Temporal Convolutional Networks for Monaural
Speech Dereverberation [26.94528951545861]
Supervised Deep Learning(DL)モデルは、単一チャネル音声の残響に対する最先端のパフォーマンスを提供する。
時間畳み込みネットワーク(TCN)は、音声強調タスクのシーケンスモデリングに一般的に使用される。
本稿では,TCNのモデルサイズと受容場に依存した残響特性を解析する。
論文 参考訳(メタデータ) (2022-04-13T14:57:59Z) - TMS: A Temporal Multi-scale Backbone Design for Speaker Embedding [60.292702363839716]
話者埋め込みのための現在のSOTAバックボーンネットワークは、話者表現のためのマルチブランチネットワークアーキテクチャを用いた発話からマルチスケール特徴を集約するように設計されている。
本稿では, 話者埋め込みネットワークにおいて, 計算コストの増大を伴わずに, マルチスケール分岐を効率的に設計できる効果的な時間的マルチスケール(TMS)モデルを提案する。
論文 参考訳(メタデータ) (2022-03-17T05:49:35Z) - Deep Time Delay Neural Network for Speech Enhancement with Full Data
Learning [60.20150317299749]
本稿では,全データ学習による音声強調のためのディープタイム遅延ニューラルネットワーク(TDNN)を提案する。
トレーニングデータを完全に活用するために,音声強調のための完全なデータ学習手法を提案する。
論文 参考訳(メタデータ) (2020-11-11T06:32:37Z) - A Fully Tensorized Recurrent Neural Network [48.50376453324581]
重み付けされたRNNアーキテクチャを導入し、各リカレントセル内の個別の重み付け行列を共同で符号化する。
このアプローチはモデルのサイズを数桁削減するが、通常のRNNと同等あるいは優れた性能を維持している。
論文 参考訳(メタデータ) (2020-10-08T18:24:12Z) - Lip-reading with Densely Connected Temporal Convolutional Networks [61.66144695679362]
本稿では,孤立した単語の唇読解のためのDensely Connected Temporal Convolutional Network (DC-TCN)を提案する。
我々の手法はWildデータセットのLip Readingで88.36%、LRW-1000データセットで43.65%の精度を達成した。
論文 参考訳(メタデータ) (2020-09-29T18:08:15Z) - Progressive Tandem Learning for Pattern Recognition with Deep Spiking
Neural Networks [80.15411508088522]
スパイキングニューラルネットワーク(SNN)は、低レイテンシと高い計算効率のために、従来の人工知能ニューラルネットワーク(ANN)よりも優位性を示している。
高速かつ効率的なパターン認識のための新しいANN-to-SNN変換およびレイヤワイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-02T15:38:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。