論文の概要: Speech Enhancement with Perceptually-motivated Optimization and Dual
Transformations
- arxiv url: http://arxiv.org/abs/2209.11905v1
- Date: Sat, 24 Sep 2022 02:33:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 14:09:33.691947
- Title: Speech Enhancement with Perceptually-motivated Optimization and Dual
Transformations
- Title(参考訳): 知覚的モチベーション付き最適化とデュアル変換による音声強調
- Authors: Xucheng Wan, Kai Liu, Ziqing Du, Huan Zhou
- Abstract要約: 本稿では、PT-FSEと呼ばれる、知覚的モチベーションのある最適化と二重変換を備えたサブバンドベース音声強調システムを提案する。
提案モデルでは背骨よりも大幅に改善されているが,SOTAよりも27%小さく,現状よりも優れていた。
ベンチマークデータセットの平均NB-PESQは3.57であり,これまでに報告された最高の音声強調結果を提供する。
- 参考スコア(独自算出の注目度): 5.4878772986187565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To address the monaural speech enhancement problem, numerous research studies
have been conducted to enhance speech via operations either in time-domain on
the inner-domain learned from the speech mixture or in time--frequency domain
on the fixed full-band short time Fourier transform (STFT) spectrograms. Very
recently, a few studies on sub-band based speech enhancement have been
proposed. By enhancing speech via operations on sub-band spectrograms, those
studies demonstrated competitive performances on the benchmark dataset of
DNS2020. Despite attractive, this new research direction has not been fully
explored and there is still room for improvement. As such, in this study, we
delve into the latest research direction and propose a sub-band based speech
enhancement system with perceptually-motivated optimization and dual
transformations, called PT-FSE. Specially, our proposed PT-FSE model improves
its backbone, a full-band and sub-band fusion model, by three efforts. First,
we design a frequency transformation module that aims to strengthen the global
frequency correlation. Then a temporal transformation is introduced to capture
long range temporal contexts. Lastly, a novel loss, with leverage of properties
of human auditory perception, is proposed to facilitate the model to focus on
low frequency enhancement. To validate the effectiveness of our proposed model,
extensive experiments are conducted on the DNS2020 dataset. Experimental
results show that our PT-FSE system achieves substantial improvements over its
backbone, but also outperforms the current state-of-the-art while being 27\%
smaller than the SOTA. With average NB-PESQ of 3.57 on the benchmark dataset,
our system offers the best speech enhancement results reported till date.
- Abstract(参考訳): モノーラル音声強調問題に対処するために、音声混合から学習した内領域の時間領域または固定された全帯域短時間フーリエ変換(stft)の時間領域の操作を通して音声を強化するための研究が数多く行われている。
近年,サブバンドに基づく音声強調に関する研究がいくつか提案されている。
これらの研究は,サブバンドスペクトログラムの操作による音声強調により,DNS2020のベンチマークデータセット上での競合性能を実証した。
魅力的な研究だが、この新たな研究の方向性は十分に調査されておらず、まだ改善の余地がある。
そこで本研究では,PT-FSEと呼ばれる,知覚的モチベーションのある最適化と二重変換を備えたサブバンド音声強調システムを提案する。
特に,提案するPT-FSEモデルでは,バックボーン,フルバンドおよびサブバンド融合モデルの改良を3回行った。
まず,大域的周波数相関の強化を目的とした周波数変換モジュールを設計する。
その後、時間変換を導入して、長期の時間的コンテキストをキャプチャする。
最後に,人間の聴覚知覚の特性を活かし,低周波強調に焦点をあてた新しい損失モデルを提案する。
提案手法の有効性を検証するため,DNS2020データセットを用いて実験を行った。
実験の結果, PT-FSE システムは背骨よりも大幅に改善されているが, SOTA よりも27 % 小さく, 現状よりも優れていた。
ベンチマークデータセットの平均NB-PESQは3.57であり,これまでに報告された最高の音声強調結果を提供する。
関連論文リスト
- Towards Robust Transcription: Exploring Noise Injection Strategies for Training Data Augmentation [55.752737615873464]
本研究では,SNR(Signal-to-Noise Ratio)レベルにおける白色雑音の影響について検討した。
この研究は、様々な音環境における一貫した性能を維持する転写モデルの開発に向けた予備的な研究として、貴重な洞察を与えてくれることを願っている。
論文 参考訳(メタデータ) (2024-10-18T02:31:36Z) - TIGER: Time-frequency Interleaved Gain Extraction and Reconstruction for Efficient Speech Separation [19.126525226518975]
パラメータと計算コストを大幅に削減した音声分離モデルを提案する。
TIGERは事前の知識を活用して周波数帯域を分割し、周波数情報を圧縮する。
我々は、TIGERが、最先端(SOTA)モデルTF-GridNetを上回る性能を達成することを示す。
論文 参考訳(メタデータ) (2024-10-02T12:21:06Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - SCP-GAN: Self-Correcting Discriminator Optimization for Training
Consistency Preserving Metric GAN on Speech Enhancement Tasks [28.261911789087463]
本稿では,多くのGANベースSEモデルに適用可能なGANトレーニングスキームの改良について紹介する。
本稿では,SEタスク上でGAN識別器を訓練するための自己補正最適化を提案する。
提案手法をいくつかの最先端のGANベースSEモデルで検証し、一貫した改善を得た。
論文 参考訳(メタデータ) (2022-10-26T04:48:40Z) - FAMLP: A Frequency-Aware MLP-Like Architecture For Domain Generalization [73.41395947275473]
本稿では、変換周波数領域において、ドメイン固有の特徴をフィルタリングする新しい周波数認識アーキテクチャを提案する。
3つのベンチマークの実験では、最先端の手法をそれぞれ3%、4%、9%のマージンで上回った。
論文 参考訳(メタデータ) (2022-03-24T07:26:29Z) - Time-domain Speech Enhancement with Generative Adversarial Learning [53.74228907273269]
本稿では,TSEGAN(Time-domain Speech Enhancement Generative Adversarial Network)という新しいフレームワークを提案する。
TSEGANは、スケーリング問題を軽減するためのメトリクス評価を備えた時間領域におけるジェネレーション・アドバーサリ・ネットワーク(GAN)の拡張である。
さらに,計量ganの性能を理論的に解析するために,客観的関数マッピングに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2021-03-30T08:09:49Z) - Speaker Representation Learning using Global Context Guided Channel and
Time-Frequency Transformations [67.18006078950337]
グローバルな文脈情報を用いて、重要なチャネルを強化し、有意義な時間周波数位置を再検討する。
提案されたモジュールは、人気のあるResNetベースのモデルとともに、VoxCeleb1データセットで評価される。
論文 参考訳(メタデータ) (2020-09-02T01:07:29Z) - Improving noise robust automatic speech recognition with single-channel
time-domain enhancement network [100.1041336974175]
単一チャネルの時間領域分割手法により,ASRの性能が大幅に向上することを示す。
単一チャネル雑音の低減はASR性能を向上できることを示す。
論文 参考訳(メタデータ) (2020-03-09T09:36:31Z) - Single Channel Speech Enhancement Using Temporal Convolutional Recurrent
Neural Networks [23.88788382262305]
時間畳み込みリカレントネットワーク(TCRN)は、ノイズ波形を直接クリーン波形にマッピングするエンドツーエンドモデルである。
既存の畳み込みリカレントネットワークと比較して,本モデルではモデルの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2020-02-02T04:26:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。