論文の概要: Single Channel Speech Enhancement Using Temporal Convolutional Recurrent
Neural Networks
- arxiv url: http://arxiv.org/abs/2002.00319v1
- Date: Sun, 2 Feb 2020 04:26:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-04 20:21:35.382456
- Title: Single Channel Speech Enhancement Using Temporal Convolutional Recurrent
Neural Networks
- Title(参考訳): 時間畳み込みリカレントニューラルネットワークを用いた単一チャネル音声強調
- Authors: Jingdong Li, Hui Zhang, Xueliang Zhang, and Changliang Li
- Abstract要約: 時間畳み込みリカレントネットワーク(TCRN)は、ノイズ波形を直接クリーン波形にマッピングするエンドツーエンドモデルである。
既存の畳み込みリカレントネットワークと比較して,本モデルではモデルの性能を向上させることができることを示す。
- 参考スコア(独自算出の注目度): 23.88788382262305
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent decades, neural network based methods have significantly improved
the performace of speech enhancement. Most of them estimate time-frequency
(T-F) representation of target speech directly or indirectly, then resynthesize
waveform using the estimated T-F representation. In this work, we proposed the
temporal convolutional recurrent network (TCRN), an end-to-end model that
directly map noisy waveform to clean waveform. The TCRN, which is combined
convolution and recurrent neural network, is able to efficiently and
effectively leverage short-term ang long-term information. Futuremore, we
present the architecture that repeatedly downsample and upsample speech during
forward propagation. We show that our model is able to improve the performance
of model, compared with existing convolutional recurrent networks. Futuremore,
We present several key techniques to stabilize the training process. The
experimental results show that our model consistently outperforms existing
speech enhancement approaches, in terms of speech intelligibility and quality.
- Abstract(参考訳): 近年,ニューラルネットワークに基づく手法により,音声強調性能が大幅に向上している。
それらの多くは、直接または間接的に対象音声の時間周波数(T-F)表現を推定した後、推定したT-F表現を用いて波形を再合成する。
本研究では,ノイズ波形をクリーン波形に直接マッピングするエンドツーエンドモデルである時間畳み込みリカレントネットワーク(tcrn)を提案する。
TCRNは畳み込みとリカレントニューラルネットワークを組み合わせたもので、短時間のアングル情報を効率的に効果的に活用することができる。
今後,前処理中に繰り返しサンプルをダウンサンプル・アップサンプル・スピーチを行うアーキテクチャを提案する。
既存の畳み込みリカレントネットワークと比較して,本モデルではモデルの性能を向上させることができることを示す。
今後,トレーニングプロセスの安定化のための重要な技術をいくつか提示する。
実験結果から,本モデルが既存の音声強調手法よりも音声の明瞭度や品質に優れていることが示唆された。
関連論文リスト
- Cascaded Temporal Updating Network for Efficient Video Super-Resolution [47.63267159007611]
リカレントベースのVSRネットワークにおけるキーコンポーネントはモデル効率に大きな影響を及ぼす。
本稿では,効率的なVSRのための時空間更新ネットワーク(CTUN)を提案する。
CTUNは,従来の方法に比べて効率と性能のトレードオフが良好である。
論文 参考訳(メタデータ) (2024-08-26T12:59:32Z) - TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - Multi-Loss Convolutional Network with Time-Frequency Attention for
Speech Enhancement [16.701596804113553]
我々はDPCRNモジュールにおける自己注意を探求し、音声強調のためのMNTFA(Multi-Loss Convolutional Network with Time-Frequency Attention)と呼ばれるモデルの設計を行う。
DPRNNと比較して、軸方向の自己アテンションはメモリと計算の必要性を大幅に減らす。
本稿では,WavLMネットワークを用いた多分解能STFT損失とWavLM損失のジョイントトレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-06-15T08:48:19Z) - BayesSpeech: A Bayesian Transformer Network for Automatic Speech
Recognition [0.0]
近年のエンド・ツー・エンド・エンド・ディープ・ラーニング・モデルによる開発は, 音声認識タスクにおけるRNN(Recurrent Neural Networks)の現状よりも, ほぼ, あるいはそれに近い性能を示すことが示されている。
重みのばらつきの導入によって,LibriSpeech-960のトレーニング時間と最先端性能が向上することを示す。
論文 参考訳(メタデータ) (2023-01-16T16:19:04Z) - A Comparative Study on Non-Autoregressive Modelings for Speech-to-Text
Generation [59.64193903397301]
非自己回帰モデル (NAR) はシーケンス内の複数の出力を同時に生成し、自動回帰ベースラインと比較して精度低下のコストで推論速度を著しく低減する。
エンドツーエンド自動音声認識(ASR)のための様々なNARモデリング手法の比較研究を行う。
各種課題の成果は, 精度・速度トレードオフや長文発話に対する頑健性など, NAR ASR の理解を深める上で興味深い結果をもたらす。
論文 参考訳(メタデータ) (2021-10-11T13:05:06Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z) - Time-domain Speech Enhancement with Generative Adversarial Learning [53.74228907273269]
本稿では,TSEGAN(Time-domain Speech Enhancement Generative Adversarial Network)という新しいフレームワークを提案する。
TSEGANは、スケーリング問題を軽減するためのメトリクス評価を備えた時間領域におけるジェネレーション・アドバーサリ・ネットワーク(GAN)の拡張である。
さらに,計量ganの性能を理論的に解析するために,客観的関数マッピングに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2021-03-30T08:09:49Z) - Real Time Speech Enhancement in the Waveform Domain [99.02180506016721]
本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。
提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。
静止ノイズや非定常ノイズを含む様々な背景ノイズを除去することができる。
論文 参考訳(メタデータ) (2020-06-23T09:19:13Z) - WaveCRN: An Efficient Convolutional Recurrent Neural Network for
End-to-end Speech Enhancement [31.236720440495994]
本稿では、WaveCRNと呼ばれる効率的なE2E SEモデルを提案する。
WaveCRNでは、音声の局所性特徴は畳み込みニューラルネットワーク(CNN)によって捉えられ、その局所性特徴の時間的シーケンシャル特性はスタック化された単純な繰り返し単位(SRU)によってモデル化される。
さらに、入力雑音音声の雑音成分をより効果的に抑制するために、隠れた層における特徴マップの強化を行う新しい制限された特徴マスキング(RFM)アプローチを導出する。
論文 参考訳(メタデータ) (2020-04-06T13:48:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。