論文の概要: Receptive Field Analysis of Temporal Convolutional Networks for Monaural
Speech Dereverberation
- arxiv url: http://arxiv.org/abs/2204.06439v1
- Date: Wed, 13 Apr 2022 14:57:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-14 16:49:48.233211
- Title: Receptive Field Analysis of Temporal Convolutional Networks for Monaural
Speech Dereverberation
- Title(参考訳): モノラル音声合成のための時間畳み込みネットワークの知覚場解析
- Authors: William Ravenscroft, Stefan Goetze, Thomas Hain
- Abstract要約: Supervised Deep Learning(DL)モデルは、単一チャネル音声の残響に対する最先端のパフォーマンスを提供する。
時間畳み込みネットワーク(TCN)は、音声強調タスクのシーケンスモデリングに一般的に使用される。
本稿では,TCNのモデルサイズと受容場に依存した残響特性を解析する。
- 参考スコア(独自算出の注目度): 26.94528951545861
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech dereverberation is often an important requirement in robust speech
processing tasks. Supervised deep learning (DL) models give state-of-the-art
performance for single-channel speech dereverberation. Temporal convolutional
networks (TCNs) are commonly used for sequence modelling in speech enhancement
tasks. A feature of TCNs is that they have a receptive field (RF) dependant on
the specific model configuration which determines the number of input frames
that can be observed to produce an individual output frame. It has been shown
that TCNs are capable of performing dereverberation of simulated speech data,
however a thorough analysis, especially with focus on the RF is yet lacking in
the literature. This paper analyses dereverberation performance depending on
the model size and the RF of TCNs. Experiments using the WHAMR corpus which is
extended to include room impulse responses (RIRs) with larger T60 values
demonstrate that a larger RF can have significant improvement in performance
when training smaller TCN models. It is also demonstrated that TCNs benefit
from a wider RF when dereverberating RIRs with larger RT60 values.
- Abstract(参考訳): 発声残響は頑健な音声処理タスクにおいてしばしば重要な要件である。
Supervised Deep Learning(DL)モデルは、単一チャネル音声の残響に対する最先端のパフォーマンスを提供する。
時間畳み込みネットワーク(TCN)は、音声強調タスクのシーケンスモデリングに一般的に使用される。
TCNの特徴は、個々の出力フレームを生成するために観測できる入力フレームの数を決定する特定のモデル構成に依存して、受容野(RF)を持つことである。
tcnはシミュレーション音声データの非残響化が可能であることが示されているが、特にrfに焦点をあてた詳細な分析は文献にはまだ欠けている。
本稿では,TCNのモデルサイズとRFによる残響特性の解析を行う。
より大きなT60値を持つ室インパルス応答(RIR)を含むように拡張されたWHAMRコーパスを用いた実験では、より小さなTNモデルのトレーニングにおいて、より大きなRFが大幅な性能向上を示す。
また、RT60値が大きいRIRを除去する場合、TNはより広いRFの恩恵を受けることが示されている。
関連論文リスト
- Multi-Loss Convolutional Network with Time-Frequency Attention for
Speech Enhancement [16.701596804113553]
我々はDPCRNモジュールにおける自己注意を探求し、音声強調のためのMNTFA(Multi-Loss Convolutional Network with Time-Frequency Attention)と呼ばれるモデルの設計を行う。
DPRNNと比較して、軸方向の自己アテンションはメモリと計算の必要性を大幅に減らす。
本稿では,WavLMネットワークを用いた多分解能STFT損失とWavLM損失のジョイントトレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-06-15T08:48:19Z) - How neural networks learn to classify chaotic time series [77.34726150561087]
本研究では,通常の逆カオス時系列を分類するために訓練されたニューラルネットワークの内部動作について検討する。
入力周期性とアクティベーション周期の関係は,LKCNNモデルの性能向上の鍵となる。
論文 参考訳(メタデータ) (2023-06-04T08:53:27Z) - Deformable Temporal Convolutional Networks for Monaural Noisy
Reverberant Speech Separation [26.94528951545861]
音声分離モデルは、多くの音声処理アプリケーションにおいて、個々の話者を分離するために使用される。
ディープラーニングモデルは、多くの音声分離ベンチマークにおける最先端(SOTA)結果につながることが示されている。
時間畳み込みネットワーク(TCN)として知られるそのようなモデルの1つは、音声分離タスクにおいて有望な結果を示している。
近年,TNの最適なRFは,音声信号の残響特性によって異なることが明らかにされている。
論文 参考訳(メタデータ) (2022-10-27T10:29:19Z) - Efficiently Trained Low-Resource Mongolian Text-to-Speech System Based
On FullConv-TTS [0.0]
本稿では,RNN成分(繰り返し単位)を用いない深層畳み込みニューラルネットワークに基づく音声合成システムを提案する。
同時に、時間ワープ、周波数マスク、時間マスクといった一連のデータ拡張手法により、モデルの汎用性とロバスト性を向上する。
最後に, CNN コンポーネントのみを用いた TTS モデルは,Tacotron などの古典的 TTS モデルと比較してトレーニング時間を短縮できることを示した。
論文 参考訳(メタデータ) (2022-10-24T14:18:43Z) - VQ-T: RNN Transducers using Vector-Quantized Prediction Network States [52.48566999668521]
本稿では,RNNトランスデューサの予測ネットワークにおけるベクトル量子化長短期記憶単位を提案する。
ASRネットワークと協調して離散表現を訓練することにより、格子生成のために仮説を積極的にマージすることができる。
提案するVQ RNNトランスデューサは,通常の予測ネットワークを持つトランスデューサよりもASR性能が向上することを示す。
論文 参考訳(メタデータ) (2022-08-03T02:45:52Z) - Utterance Weighted Multi-Dilation Temporal Convolutional Networks for
Monaural Speech Dereverberation [26.94528951545861]
時間的畳み込みネットワーク(TCN)における標準深度分割畳み込みを置き換えるため、重み付き多重ディレーション深度分離畳み込みを提案する。
この重み付き多重拡散時間畳み込みネットワーク(WD-TCN)は、様々なモデル構成において、TCNを一貫して上回っている。
論文 参考訳(メタデータ) (2022-05-17T15:56:31Z) - The Spectral Bias of Polynomial Neural Networks [63.27903166253743]
PNN(Polynomial Neural Network)は、高頻度情報を重要視する画像生成と顔認識に特に有効であることが示されている。
これまでの研究では、ニューラルネットワークが低周波関数に対して$textitspectral bias$を示しており、トレーニング中に低周波成分のより高速な学習をもたらすことが示されている。
このような研究に触発されて、我々はPNNのTangent Kernel(NTK)のスペクトル分析を行う。
我々は、最近提案されたPNNのパラメトリゼーションである$Pi$-Netファミリがスピードアップすることを発見した。
論文 参考訳(メタデータ) (2022-02-27T23:12:43Z) - MFA: TDNN with Multi-scale Frequency-channel Attention for
Text-independent Speaker Verification with Short Utterances [94.70787497137854]
本稿では、畳み込みニューラルネットワークとTDNNからなる新しいデュアルパス設計により、話者を異なるスケールで特徴付けるマルチスケール周波数チャネルアテンション(MFA)を提案する。
我々は,提案したMFAをVoxCelebデータベース上で評価し,提案したMFAを用いたフレームワークが,パラメータや複雑性を低減しつつ,最先端のパフォーマンスを実現することを確認した。
論文 参考訳(メタデータ) (2022-02-03T14:57:05Z) - Deep Networks for Direction-of-Arrival Estimation in Low SNR [89.45026632977456]
我々は,真の配列多様体行列の変異チャネルデータから学習した畳み込みニューラルネットワーク(CNN)を導入する。
我々は低SNR体制でCNNを訓練し、すべてのSNRでDoAを予測する。
私たちの堅牢なソリューションは、ワイヤレスアレイセンサーから音響マイクロフォンやソナーまで、いくつかの分野に適用できます。
論文 参考訳(メタデータ) (2020-11-17T12:52:18Z) - Deep Time Delay Neural Network for Speech Enhancement with Full Data
Learning [60.20150317299749]
本稿では,全データ学習による音声強調のためのディープタイム遅延ニューラルネットワーク(TDNN)を提案する。
トレーニングデータを完全に活用するために,音声強調のための完全なデータ学習手法を提案する。
論文 参考訳(メタデータ) (2020-11-11T06:32:37Z) - Single Channel Speech Enhancement Using Temporal Convolutional Recurrent
Neural Networks [23.88788382262305]
時間畳み込みリカレントネットワーク(TCRN)は、ノイズ波形を直接クリーン波形にマッピングするエンドツーエンドモデルである。
既存の畳み込みリカレントネットワークと比較して,本モデルではモデルの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2020-02-02T04:26:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。