論文の概要: Parallel Gated Neural Network With Attention Mechanism For Speech
Enhancement
- arxiv url: http://arxiv.org/abs/2210.14509v2
- Date: Thu, 27 Oct 2022 04:47:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 16:09:44.370103
- Title: Parallel Gated Neural Network With Attention Mechanism For Speech
Enhancement
- Title(参考訳): 音声強調のための注意機構を有する並列ゲートニューラルネットワーク
- Authors: Jianqiao Cui, Stefan Bleeck
- Abstract要約: 本稿では,特徴抽出ブロック (FEB) と補償拡張ブロック (ComEB) とマスクブロック (MB) からなる新しい単調音声強調システムを提案する。
Librispeech データセットを用いて実験を行い,提案モデルがESTOI と PESQ のスコアから,最近のモデルよりも優れた性能が得られることを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning algorithm are increasingly used for speech enhancement (SE). In
supervised methods, global and local information is required for accurate
spectral mapping. A key restriction is often poor capture of key contextual
information. To leverage long-term for target speakers and compensate
distortions of cleaned speech, this paper adopts a sequence-to-sequence (S2S)
mapping structure and proposes a novel monaural speech enhancement system,
consisting of a Feature Extraction Block (FEB), a Compensation Enhancement
Block (ComEB) and a Mask Block (MB). In the FEB a U-net block is used to
extract abstract features using complex-valued spectra with one path to
suppress the background noise in the magnitude domain using masking methods and
the MB takes magnitude features from the FEBand compensates the lost
complex-domain features produced from ComEB to restore the final cleaned
speech. Experiments are conducted on the Librispeech dataset and results show
that the proposed model obtains better performance than recent models in terms
of ESTOI and PESQ scores.
- Abstract(参考訳): 深層学習アルゴリズムは、音声強調(SE)にますます使われている。
教師付き手法では、正確なスペクトルマッピングにはグローバルおよびローカル情報が必要である。
鍵となる制限は、しばしば重要な文脈情報の取り込みが貧弱である。
対象話者の長期的活用とクリーン音声の歪み補償のために,シーケンス・ツー・シーケンス(S2S)マッピング構造を採用し,特徴抽出ブロック(FEB),補償拡張ブロック(ComEB),マスクブロック(MB)からなる新しいモノラル音声強調システムを提案する。
FEBにおいて、U-netブロックを用いて複合値スペクトルを用いて抽象的特徴を抽出し、マスキング手法を用いて大域の背景雑音を抑える一方、MBはFEBから大域特徴を採り、ComEBから得られた失われた複素領域特徴を補償して最終的なクリーン化音声を復元する。
Librispeech データセットを用いて実験を行い,提案モデルがESTOI と PESQ のスコアから最近のモデルよりも優れた性能が得られることを示した。
関連論文リスト
- Boosting Open-Vocabulary Object Detection by Handling Background Samples [9.07525578809556]
背景サンプルの処理におけるCLIPの限界に対処する新しい手法を提案する。
本稿では,部分的領域を前景として誤分類する問題に対処するために,部分的オブジェクト抑圧(POS)を導入する。
提案手法は,様々な開語彙検出器の性能向上を実現することができる。
論文 参考訳(メタデータ) (2024-10-11T09:15:50Z) - Mixture-of-Noises Enhanced Forgery-Aware Predictor for Multi-Face Manipulation Detection and Localization [52.87635234206178]
本稿では,多面的操作検出と局所化に適したMoNFAPという新しいフレームワークを提案する。
このフレームワークには2つの新しいモジュールが含まれている: Forgery-aware Unified Predictor (FUP) Module と Mixture-of-Noises Module (MNM)。
論文 参考訳(メタデータ) (2024-08-05T08:35:59Z) - Coarse-to-Fine Proposal Refinement Framework for Audio Temporal Forgery Detection and Localization [60.899082019130766]
本稿では、フレームレベル検出ネットワーク(FDN)と、音声の時間的偽造検出とローカライゼーションのための改良ネットワーク(PRN)を提案する。
FDNは、偽のフレーム間で情報的不整合の手がかりを抽出し、偽の領域を大まかに示すのに有用な識別的特徴を得る。
PRNは、FDNから派生した粗粒度の提案を洗練するために、信頼スコアと回帰オフセットを予測する責任がある。
論文 参考訳(メタデータ) (2024-07-23T15:07:52Z) - A Mask Free Neural Network for Monaural Speech Enhancement [5.773867150765472]
本稿では,MFNetを提案する。MFNetは,音声のマッピングだけでなく,逆雑音のマッピングも可能な,直接的かつシンプルなネットワークである。
実験の結果,マッピング手法によるネットワークのマスキング性能は,マスキング法よりも優れていた。
論文 参考訳(メタデータ) (2023-06-07T09:39:07Z) - NLIP: Noise-robust Language-Image Pre-training [95.13287735264937]
雑音調和と雑音補完という2つの手法を用いて事前学習の安定化を図るため,NLIPの原理的手法を提案する。
我々のNLIPは、画像テキスト事前学習における一般的なノイズ効果をより効率的に軽減することができる。
論文 参考訳(メタデータ) (2022-12-14T08:19:30Z) - Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。
エンドツーエンドのNAR音声認識システムを提案する。
提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文 参考訳(メタデータ) (2021-07-20T11:42:26Z) - Efficient Low-Latency Speech Enhancement with Mobile Audio Streaming
Networks [6.82469220191368]
高速低遅延音声強調のためのモバイル音声ストリーミングネットワーク(MASnet)を提案する。
MASnetは線形スケールのスペクトログラムを処理し、連続するノイズフレームを複素値比マスクに変換する。
論文 参考訳(メタデータ) (2020-08-17T12:18:34Z) - Sparse Mixture of Local Experts for Efficient Speech Enhancement [19.645016575334786]
本稿では,専門的ニューラルネットワークの効率的なアンサンブルを通して,音声を聴覚的に認識するためのディープラーニング手法について検討する。
タスクを重複しないサブプロブレムに分割することで、計算複雑性を低減しつつ、デノナイジング性能を向上させることができる。
以上の結果から,微調整されたアンサンブルネットワークは,一般のネットワークの発声能力を上回ることができることがわかった。
論文 参考訳(メタデータ) (2020-05-16T23:23:22Z) - Simultaneous Denoising and Dereverberation Using Deep Embedding Features [64.58693911070228]
ディープ埋め込み特徴を用いた同時発声・発声同時学習法を提案する。
ノイズ発生段階では、DCネットワークを利用してノイズのないディープ埋込み特性を抽出する。
残響段階では、教師なしのK平均クラスタリングアルゴリズムの代わりに、別のニューラルネットワークを用いて無響音声を推定する。
論文 参考訳(メタデータ) (2020-04-06T06:34:01Z) - ADRN: Attention-based Deep Residual Network for Hyperspectral Image
Denoising [52.01041506447195]
ノイズの多いHSIからクリーンなHSIへのマッピングを学習するために,注目に基づくディープ残差ネットワークを提案する。
実験の結果,提案手法は定量的および視覚的評価において最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-03-04T08:36:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。