論文の概要: End-to-End Multi-Task Denoising for joint SDR and PESQ Optimization
- arxiv url: http://arxiv.org/abs/1901.09146v4
- Date: Wed, 8 Mar 2023 23:46:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-25 04:40:32.393779
- Title: End-to-End Multi-Task Denoising for joint SDR and PESQ Optimization
- Title(参考訳): 共同SDRとPSSQ最適化のためのエンドツーエンドマルチタスクDenoising
- Authors: Jaeyoung Kim, Mostafa El-Khamy and Jungwon Lee
- Abstract要約: ネットワークの騒音は、ノイズの多い音声からマッピングを学習し、それらを直接掃除する。
既存のスキームにはスペクトルと計量ミスマッチの2つの重要な問題がある。
本稿では,SDRとPSSQ最適化を併用した新しいエンドツーエンドデノベーションフレームワークを提案する。
- 参考スコア(独自算出の注目度): 43.15288441772729
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Supervised learning based on a deep neural network recently has achieved
substantial improvement on speech enhancement. Denoising networks learn mapping
from noisy speech to clean one directly, or to a spectrum mask which is the
ratio between clean and noisy spectra. In either case, the network is optimized
by minimizing mean square error (MSE) between ground-truth labels and
time-domain or spectrum output. However, existing schemes have either of two
critical issues: spectrum and metric mismatches. The spectrum mismatch is a
well known issue that any spectrum modification after short-time Fourier
transform (STFT), in general, cannot be fully recovered after inverse
short-time Fourier transform (ISTFT). The metric mismatch is that a
conventional MSE metric is sub-optimal to maximize our target metrics,
signal-to-distortion ratio (SDR) and perceptual evaluation of speech quality
(PESQ). This paper presents a new end-to-end denoising framework with the goal
of joint SDR and PESQ optimization. First, the network optimization is
performed on the time-domain signals after ISTFT to avoid spectrum mismatch.
Second, two loss functions which have improved correlations with SDR and PESQ
metrics are proposed to minimize metric mismatch. The experimental result
showed that the proposed denoising scheme significantly improved both SDR and
PESQ performance over the existing methods.
- Abstract(参考訳): 近年,ディープニューラルネットワークに基づく教師付き学習は,音声強調の大幅な改善を実現している。
ノイズキャンセリングネットワークは、ノイズの多い音声から直接、あるいはノイズの多いスペクトルの比率であるスペクトルマスクへのマッピングを学習する。
いずれの場合も、地上トラスラベルと時間領域またはスペクトル出力間の平均二乗誤差(MSE)を最小化することにより、ネットワークを最適化する。
しかし、既存のスキームにはスペクトルと計量ミスマッチの2つの重要な問題がある。
スペクトルミスマッチは、短周期フーリエ変換(STFT)後のスペクトル変化が逆短周期フーリエ変換(ISTFT)の後に完全に回復できないというよく知られた問題である。
基準ミスマッチは,従来のMSE測度が,我々の目標測度,信号対歪み比(SDR),知覚的音声品質評価(PESQ)を最大化するための準最適である。
本稿では,SDRとPSSQ最適化を併用した新しいエンドツーエンドデノベーションフレームワークを提案する。
まず、帯域ミスマッチを回避するため、ISTFT後の時間領域信号でネットワーク最適化を行う。
次に,sdr と pesq の指標との相関性を改善した2つの損失関数を提案する。
実験の結果,提案手法は既存手法よりもSDRおよびPSSQの性能を有意に向上した。
関連論文リスト
- Optimization Guarantees of Unfolded ISTA and ADMM Networks With Smooth
Soft-Thresholding [57.71603937699949]
我々は,学習エポックの数の増加とともに,ほぼゼロに近いトレーニング損失を達成するための最適化保証について検討した。
トレーニングサンプル数に対する閾値は,ネットワーク幅の増加とともに増加することを示す。
論文 参考訳(メタデータ) (2023-09-12T13:03:47Z) - Unifying Speech Enhancement and Separation with Gradient Modulation for
End-to-End Noise-Robust Speech Separation [23.758202121043805]
本稿では,音声の強調と分離を勾配変調で統一し,ノイズ・ロバスト性を改善する新しいネットワークを提案する。
実験結果から,大規模Libri2Mix-およびLibri3Mix-noisyデータセットの最先端化が得られた。
論文 参考訳(メタデータ) (2023-02-22T03:54:50Z) - Parallel Gated Neural Network With Attention Mechanism For Speech
Enhancement [0.0]
本稿では,特徴抽出ブロック (FEB) と補償拡張ブロック (ComEB) とマスクブロック (MB) からなる新しい単調音声強調システムを提案する。
Librispeech データセットを用いて実験を行い,提案モデルがESTOI と PESQ のスコアから,最近のモデルよりも優れた性能が得られることを示した。
論文 参考訳(メタデータ) (2022-10-26T06:42:19Z) - Iterative Adaptive Spectroscopy of Short Signals [0.1338174941551702]
ラムゼー干渉法に基づく適応周波数検出プロトコルを開発した。
ラムゼイ配列を強化し、センシング状態と読み出し状態の両方で高い忠実度で調製することにより、高精度を実現する。
論文 参考訳(メタデータ) (2022-04-10T18:07:50Z) - A neural network-supported two-stage algorithm for lightweight
dereverberation on hearing devices [13.49645012479288]
本稿では,2段階の軽量オンライン補聴器のオンライン補聴アルゴリズムについて述べる。
このアプローチは、マルチチャネルのマルチフレーム線形フィルタとシングルチャネルのシングルフレームポストフィルタを組み合わせる。
どちらのコンポーネントも、ディープニューラルネットワーク(DNN)によって提供されるパワースペクトル密度(PSD)の推定に依存している。
論文 参考訳(メタデータ) (2022-04-06T11:08:28Z) - Single-channel speech separation using Soft-minimum Permutation
Invariant Training [60.99112031408449]
教師付き音声分離における長寿命問題は、それぞれの分離された音声信号の正しいラベルを見つけることである。
Permutation Invariant Training (PIT) はラベルあいまいさ問題に対処する上で有望な解決策であることが示されている。
そこで本研究では,PITの不効率に対処する確率的最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-16T17:25:05Z) - Improving Stability of LS-GANs for Audio and Speech Signals [70.15099665710336]
このベクトル空間で計算された正規性からジェネレータ最適化の定式化への切り離しの符号化は、より包括的な分光図を作成するのに役立つことを示す。
本手法をベースラインGANと比較してモード崩壊の少ないトレーニングにおける安定性向上に有効であることを示す。
論文 参考訳(メタデータ) (2020-08-12T17:41:25Z) - Audio-visual Multi-channel Recognition of Overlapped Speech [79.21950701506732]
本稿では,音声とマルチチャンネルの重なり合う音声認識システムについて述べる。
実験により,提案したマルチチャネルAVSRシステムは,音声のみのASRシステムを最大6.81% (26.83%) ,22.22% (56.87%) の絶対単語誤り率 (WER) で比較した。
論文 参考訳(メタデータ) (2020-05-18T10:31:19Z) - Rethinking Differentiable Search for Mixed-Precision Neural Networks [83.55785779504868]
低ビット幅に量子化された重みとアクティベーションを持つ低精度ネットワークは、エッジデバイスでの推論を加速するために広く利用されている。
現在の解は均一であり、全てのフィルタに同じビット幅を使用する。
これは異なるフィルタの異なる感度を考慮せず、最適以下である。
混合精度ネットワークは、ビット幅を個々のフィルタ要求に調整することでこの問題に対処する。
論文 参考訳(メタデータ) (2020-04-13T07:02:23Z) - Unsupervised Adaptive Neural Network Regularization for Accelerated
Radial Cine MRI [3.6280929178575994]
本研究では,浅部畳み込みニューラルネットワークの非教師なし学習に基づく2次元放射状シネMRIの反復的再構成手法を提案する。
ネットワークは、再構築中の解の現在の推定値のパッチを近似するように訓練される。
論文 参考訳(メタデータ) (2020-02-10T14:47:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。