論文の概要: SkipConvGAN: Monaural Speech Dereverberation using Generative
Adversarial Networks via Complex Time-Frequency Masking
- arxiv url: http://arxiv.org/abs/2211.12623v1
- Date: Tue, 22 Nov 2022 23:02:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 16:36:32.244492
- Title: SkipConvGAN: Monaural Speech Dereverberation using Generative
Adversarial Networks via Complex Time-Frequency Masking
- Title(参考訳): SkipConvGAN:複雑な時間周波数マスキングによる生成逆ネットワークを用いたモナラ音声認識
- Authors: Vinay Kothapally, J. H. L. Hansen
- Abstract要約: 本研究では,SkipConvGANを提案する。
提案方式のジェネレータネットワークは、効率的な複雑な時間周波数マスクを推定し、判別器ネットワークは、失われたフォルマント構造を復元するためにジェネレータを駆動する。
本稿では,REVERBチャレンジコーパスの単一チャンネルタスクからの残響音声のシミュレートと実写記録について,提案システムの性能評価を行った。
- 参考スコア(独自算出の注目度): 1.6434906720016411
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the advancements in deep learning approaches, the performance of speech
enhancing systems in the presence of background noise have shown significant
improvements. However, improving the system's robustness against reverberation
is still a work in progress, as reverberation tends to cause loss of formant
structure due to smearing effects in time and frequency. A wide range of deep
learning-based systems either enhance the magnitude response and reuse the
distorted phase or enhance complex spectrogram using a complex time-frequency
mask. Though these approaches have demonstrated satisfactory performance, they
do not directly address the lost formant structure caused by reverberation. We
believe that retrieving the formant structure can help improve the efficiency
of existing systems. In this study, we propose SkipConvGAN - an extension of
our prior work SkipConvNet. The proposed system's generator network tries to
estimate an efficient complex time-frequency mask, while the discriminator
network aids in driving the generator to restore the lost formant structure. We
evaluate the performance of our proposed system on simulated and real
recordings of reverberant speech from the single-channel task of the REVERB
challenge corpus. The proposed system shows a consistent improvement across
multiple room configurations over other deep learning-based generative
adversarial frameworks.
- Abstract(参考訳): ディープラーニング手法の進歩に伴い,背景雑音の存在下での音声強調システムの性能は大幅に向上した。
しかしながら、残響に対するシステムの堅牢性の改善は、時間と周波数におけるスミアリングの影響によりフォルマント構造が失われる傾向にあるため、まだ進行中である。
幅広いディープラーニングベースのシステムは、大きさの応答を高め、歪んだ位相を再利用するか、複雑な時間周波数マスクを用いて複雑な分光図を拡張する。
これらの手法は良好な性能を示したが、残響による失われたフォルマント構造に直接対処するものではない。
フォーマント構造を取得することは、既存のシステムの効率を改善するのに役立つと考えています。
本研究では,以前のskipconvnetの拡張であるskipconvganを提案する。
提案方式のジェネレータネットワークは、効率的な複雑な時間周波数マスクを推定し、判別器ネットワークは、失われたフォルマント構造を復元するためにジェネレータを駆動する。
本稿では,REVERBチャレンジコーパスの単一チャンネルタスクからの残響音声のシミュレートおよび実録音における提案システムの性能評価を行った。
提案システムでは,複数の部屋構成にまたがる一貫した改善を,他の深層学習に基づく生成的対向フレームワークと比較した。
関連論文リスト
- UNIT-DSR: Dysarthric Speech Reconstruction System Using Speech Unit
Normalization [60.43992089087448]
変形性音声再構成システムは、変形性音声を正常な音声に変換することを目的としている。
本稿では,HuBERTのドメイン適応能力を活用して学習効率を向上させるユニットDSRシステムを提案する。
NEDアプローチと比較すると、ユニットDSRシステムは音声単位正規化器とユニットHiFi-GANボコーダのみで構成されている。
論文 参考訳(メタデータ) (2024-01-26T06:08:47Z) - Neural Harmonium: An Interpretable Deep Structure for Nonlinear Dynamic
System Identification with Application to Audio Processing [4.599180419117645]
解釈可能性(Interpretability)は、モデルを一般化し、その限界を明らかにする能力を理解するのに役立ちます。
本稿では,動的システムモデリングのための因果解釈可能な深部構造を提案する。
提案モデルは,時間周波数領域におけるシステムモデリングによる調和解析を利用する。
論文 参考訳(メタデータ) (2023-10-10T21:32:15Z) - Gated Recurrent Neural Networks with Weighted Time-Delay Feedback [59.125047512495456]
重み付き時間遅延フィードバック機構を備えた新しいゲートリカレントユニット(GRU)を導入する。
我々は、$tau$-GRUが、最先端のリカレントユニットやゲート型リカレントアーキテクチャよりも早く収束し、より一般化できることを示します。
論文 参考訳(メタデータ) (2022-12-01T02:26:34Z) - Complex-Valued Time-Frequency Self-Attention for Speech Dereverberation [39.64103126881576]
本稿では,スペクトルおよび時間依存性をモデル化した複雑なT-Fアテンション(TFA)モジュールを提案する。
本稿では,REVERBチャレンジコーパスを用いた深部複雑畳み込みリカレントネットワーク(DCCRN)を用いた複雑なTFAモジュールの有効性を検証した。
実験結果から,複雑なTFAモジュールをDCCRNに統合することで,バックエンド音声アプリケーション全体の品質と性能が向上することが示唆された。
論文 参考訳(メタデータ) (2022-11-22T23:38:10Z) - Parallel Gated Neural Network With Attention Mechanism For Speech
Enhancement [0.0]
本稿では,特徴抽出ブロック (FEB) と補償拡張ブロック (ComEB) とマスクブロック (MB) からなる新しい単調音声強調システムを提案する。
Librispeech データセットを用いて実験を行い,提案モデルがESTOI と PESQ のスコアから,最近のモデルよりも優れた性能が得られることを示した。
論文 参考訳(メタデータ) (2022-10-26T06:42:19Z) - Simple Pooling Front-ends For Efficient Audio Classification [56.59107110017436]
入力音声特徴量における時間的冗長性を排除することは,効率的な音声分類に有効な方法である可能性が示唆された。
本稿では、単純な非パラメトリックプーリング操作を用いて冗長な情報を削減する単純なプールフロントエンド(SimPFs)のファミリーを提案する。
SimPFは、市販オーディオニューラルネットワークの浮動小数点演算数の半数以上を削減できる。
論文 参考訳(メタデータ) (2022-10-03T14:00:41Z) - Voice Activity Detection for Transient Noisy Environment Based on
Diffusion Nets [13.558688470594674]
過渡音と定常音の音響環境における音声活動検出について検討する。
音声フレームと非音声音声フレームの空間パターンを独立に学習し,その基礎となる幾何学的構造を学習する。
ディープニューラルネットワークは、音声フレームと非音声フレームを分離するように訓練される。
論文 参考訳(メタデータ) (2021-06-25T17:05:26Z) - Time-domain Speech Enhancement with Generative Adversarial Learning [53.74228907273269]
本稿では,TSEGAN(Time-domain Speech Enhancement Generative Adversarial Network)という新しいフレームワークを提案する。
TSEGANは、スケーリング問題を軽減するためのメトリクス評価を備えた時間領域におけるジェネレーション・アドバーサリ・ネットワーク(GAN)の拡張である。
さらに,計量ganの性能を理論的に解析するために,客観的関数マッピングに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2021-03-30T08:09:49Z) - Sparse Mixture of Local Experts for Efficient Speech Enhancement [19.645016575334786]
本稿では,専門的ニューラルネットワークの効率的なアンサンブルを通して,音声を聴覚的に認識するためのディープラーニング手法について検討する。
タスクを重複しないサブプロブレムに分割することで、計算複雑性を低減しつつ、デノナイジング性能を向上させることができる。
以上の結果から,微調整されたアンサンブルネットワークは,一般のネットワークの発声能力を上回ることができることがわかった。
論文 参考訳(メタデータ) (2020-05-16T23:23:22Z) - Improving noise robust automatic speech recognition with single-channel
time-domain enhancement network [100.1041336974175]
単一チャネルの時間領域分割手法により,ASRの性能が大幅に向上することを示す。
単一チャネル雑音の低減はASR性能を向上できることを示す。
論文 参考訳(メタデータ) (2020-03-09T09:36:31Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。