論文の概要: Phase Aware Speech Enhancement using Realisation of Complex-valued LSTM
- arxiv url: http://arxiv.org/abs/2010.14122v1
- Date: Tue, 27 Oct 2020 08:16:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 12:50:04.968399
- Title: Phase Aware Speech Enhancement using Realisation of Complex-valued LSTM
- Title(参考訳): 複素値LSTMの実現による位相認識音声強調
- Authors: Raktim Gautam Goswami, Sivaganesh Andhavarapu and K Sri Rama Murty
- Abstract要約: 本稿では、複素比マスクを推定するために、複素数値短期記憶(RTM)ネットワークの実現を提案する。
提案したRTMは複素数値列を複素算術を用いて処理するように設計されている。
実価値に基づくマスキング手法と比較して,提案手法は,音声品質の知覚的評価など,いくつかの客観的尺度で改善されている。
- 参考スコア(独自算出の注目度): 4.047123840446361
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most of the deep learning based speech enhancement (SE) methods rely on
estimating the magnitude spectrum of the clean speech signal from the observed
noisy speech signal, either by magnitude spectral masking or regression. These
methods reuse the noisy phase while synthesizing the time-domain waveform from
the estimated magnitude spectrum. However, there have been recent works
highlighting the importance of phase in SE. There was an attempt to estimate
the complex ratio mask taking phase into account using complex-valued
feed-forward neural network (FFNN). But FFNNs cannot capture the sequential
information essential for phase estimation. In this work, we propose a
realisation of complex-valued long short-term memory (RCLSTM) network to
estimate the complex ratio mask (CRM) using sequential information along time.
The proposed RCLSTM is designed to process the complex-valued sequences using
complex arithmetic, and hence it preserves the dependencies between the real
and imaginary parts of CRM and thereby the phase. The proposed method is
evaluated on the noisy speech mixtures formed from the Voice-Bank corpus and
DEMAND database. When compared to real value based masking methods, the
proposed RCLSTM improves over them in several objective measures including
perceptual evaluation of speech quality (PESQ), in which it improves by over
4.3%
- Abstract(参考訳): 深層学習に基づく音声強調法(SE法)の多くは、観測された雑音の多い音声信号からクリーン音声信号の大きさスペクトルを、スペクトルマスキングや回帰によって推定することに依存する。
これらの方法は、推定等級スペクトルから時間領域波形を合成しながらノイズ相を再利用する。
しかし、seにおけるフェーズの重要性を強調する最近の研究がある。
複素数値フィードフォワードニューラルネットワーク(FFNN)を用いて、複雑な比マスクの位相を考慮した推定を試みた。
しかしffnnは位相推定に必要な逐次情報をキャプチャできない。
本研究では,複素値長短期メモリ(RCLSTM)ネットワークの実現を提案し,時系列情報を用いて複素比マスク(CRM)を推定する。
提案したRCLSTMは複雑な演算を用いて複雑な数値列を処理するように設計されており、CRMの実際の部分と想像上の部分の依存関係を保存し、相を保ちます。
提案手法は,音声バンクコーパスとデマンドデータベースから生成した雑音混合音声について評価する。
実価値に基づくマスキング法と比較して,提案したRCLSTMは,音声品質の知覚的評価(PESQ)を含むいくつかの客観的尺度において,4.3%以上向上する。
関連論文リスト
- Robust Simultaneous Multislice MRI Reconstruction Using Deep Generative Priors [4.23798859509348]
同時マルチスライス(SMS)イメージングはMRI取得を加速させる強力な技術である。
本研究は, 深部生成前駆体を用いた頑健なSMS MRI再構成法を提案する。
論文 参考訳(メタデータ) (2024-07-31T13:34:14Z) - Deep Reinforcement Learning for IRS Phase Shift Design in
Spatiotemporally Correlated Environments [93.30657979626858]
本稿では,チャネル相関と目的地動きを考慮したディープアクター批判アルゴリズムを提案する。
チャネルが時間的に相関している場合、コンバージェンスを抑制する方法において、関数近似を伴う状態表現にSNRを組み込むことが示される。
論文 参考訳(メタデータ) (2022-11-02T22:07:36Z) - Parallel Gated Neural Network With Attention Mechanism For Speech
Enhancement [0.0]
本稿では,特徴抽出ブロック (FEB) と補償拡張ブロック (ComEB) とマスクブロック (MB) からなる新しい単調音声強調システムを提案する。
Librispeech データセットを用いて実験を行い,提案モデルがESTOI と PESQ のスコアから,最近のモデルよりも優れた性能が得られることを示した。
論文 参考訳(メタデータ) (2022-10-26T06:42:19Z) - CMGAN: Conformer-based Metric GAN for Speech Enhancement [6.480967714783858]
本稿では,時間周波数領域に対する共振器を用いた距離生成逆ネットワーク(CMGAN)を提案する。
本生成装置では,2段コンバータブロックを用いて,全等級および複雑なスペクトログラム情報を集約する。
デコーダ段階では、大きさと複素スペクトルの推定を分離し、拡張された音声を再構成するために共同で組み込む。
論文 参考訳(メタデータ) (2022-03-28T23:53:34Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Improved MVDR Beamforming Using LSTM Speech Models to Clean Spatial
Clustering Masks [14.942060304734497]
空間クラスタリング技術は、比較的任意のマイクロホン構成で大きなマルチチャネルノイズ低減を実現することができる。
LSTMニューラルネットワークは、単一チャネル入力のノイズから音声を認識するために訓練されているが、マルチチャネル記録における情報を完全に活用することは困難である。
本稿では,これら2つのアプローチを統合し,モデルベースEMソース分離局所化法(MESSL)により生成されたマスクを除去するためにLSTM音声モデルを訓練する。
論文 参考訳(メタデータ) (2020-12-02T22:35:00Z) - Multi-Tones' Phase Coding (MTPC) of Interaural Time Difference by
Spiking Neural Network [68.43026108936029]
雑音の多い実環境下での正確な音像定位のための純粋スパイクニューラルネットワーク(SNN)に基づく計算モデルを提案する。
このアルゴリズムを,マイクロホンアレイを用いたリアルタイムロボットシステムに実装する。
実験の結果, 平均誤差方位は13度であり, 音源定位に対する他の生物学的に妥当なニューロモルフィックアプローチの精度を上回っていることがわかった。
論文 参考訳(メタデータ) (2020-07-07T08:22:56Z) - Simultaneous Denoising and Dereverberation Using Deep Embedding Features [64.58693911070228]
ディープ埋め込み特徴を用いた同時発声・発声同時学習法を提案する。
ノイズ発生段階では、DCネットワークを利用してノイズのないディープ埋込み特性を抽出する。
残響段階では、教師なしのK平均クラスタリングアルゴリズムの代わりに、別のニューラルネットワークを用いて無響音声を推定する。
論文 参考訳(メタデータ) (2020-04-06T06:34:01Z) - Co-VeGAN: Complex-Valued Generative Adversarial Network for Compressive
Sensing MR Image Reconstruction [8.856953486775716]
本稿では,複素値入力を処理するための,複素値対向ネットワーク(Co-VeGAN)に基づく新しいフレームワークを提案する。
我々のモデルは複雑な値入力を処理でき、CS-MR画像の高品質な再構成を可能にする。
論文 参考訳(メタデータ) (2020-02-24T20:28:49Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。