Fugu-MT 論文翻訳(概要): Parallel Gated Neural Network With Attention Mechanism For Speech Enhancement

論文の概要: Parallel Gated Neural Network With Attention Mechanism For Speech Enhancement

arxiv url: http://arxiv.org/abs/2210.14509v2
Date: Thu, 27 Oct 2022 04:47:45 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-28 16:09:44.370103
Title: Parallel Gated Neural Network With Attention Mechanism For Speech Enhancement
Title（参考訳）: 音声強調のための注意機構を有する並列ゲートニューラルネットワーク
Authors: Jianqiao Cui, Stefan Bleeck
Abstract要約: 本稿では,特徴抽出ブロック (FEB) と補償拡張ブロック (ComEB) とマスクブロック (MB) からなる新しい単調音声強調システムを提案する。 Librispeech データセットを用いて実験を行い,提案モデルがESTOI と PESQ のスコアから,最近のモデルよりも優れた性能が得られることを示した。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep learning algorithm are increasingly used for speech enhancement (SE). In supervised methods, global and local information is required for accurate spectral mapping. A key restriction is often poor capture of key contextual information. To leverage long-term for target speakers and compensate distortions of cleaned speech, this paper adopts a sequence-to-sequence (S2S) mapping structure and proposes a novel monaural speech enhancement system, consisting of a Feature Extraction Block (FEB), a Compensation Enhancement Block (ComEB) and a Mask Block (MB). In the FEB a U-net block is used to extract abstract features using complex-valued spectra with one path to suppress the background noise in the magnitude domain using masking methods and the MB takes magnitude features from the FEBand compensates the lost complex-domain features produced from ComEB to restore the final cleaned speech. Experiments are conducted on the Librispeech dataset and results show that the proposed model obtains better performance than recent models in terms of ESTOI and PESQ scores.
Abstract（参考訳）: 深層学習アルゴリズムは、音声強調(SE)にますます使われている。教師付き手法では、正確なスペクトルマッピングにはグローバルおよびローカル情報が必要である。鍵となる制限は、しばしば重要な文脈情報の取り込みが貧弱である。対象話者の長期的活用とクリーン音声の歪み補償のために,シーケンス・ツー・シーケンス(S2S)マッピング構造を採用し,特徴抽出ブロック(FEB),補償拡張ブロック(ComEB),マスクブロック(MB)からなる新しいモノラル音声強調システムを提案する。 FEBにおいて、U-netブロックを用いて複合値スペクトルを用いて抽象的特徴を抽出し、マスキング手法を用いて大域の背景雑音を抑える一方、MBはFEBから大域特徴を採り、ComEBから得られた失われた複素領域特徴を補償して最終的なクリーン化音声を復元する。 Librispeech データセットを用いて実験を行い,提案モデルがESTOI と PESQ のスコアから最近のモデルよりも優れた性能が得られることを示した。

関連論文リスト

FOAM: A General Frequency-Optimized Anti-Overlapping Framework for Overlapping Object Perception [7.258172311752019]
重なり合う物体知覚は、ランダムに重なり合う前景の特徴を分離し、背景の特徴を抑えつつ前景の特徴を抽出することを目的としている。本稿では、よりテクスチャや輪郭情報を抽出する際のモデルを支援するために、一般周波数ベースのアンチオーバーラップフレームワーク(FOAM)を提案する。具体的には、周波数空間変換器ブロック(FSTB)を設計し、周波数領域と空間領域の両方から特徴を同時に抽出し、ネットワークがフォアグラウンドからより多くのテクスチャ特徴をキャプチャするのに役立つ。
論文参考訳（メタデータ） (2025-06-16T13:58:49Z)
Magnitude-Phase Dual-Path Speech Enhancement Network based on Self-Supervised Embedding and Perceptual Contrast Stretch Boosting [6.15602203132432]
BSP-MPNetは、音声強調のための自己教師付き特徴と等級情報を組み合わせたデュアルパスフレームワークである。我々はVoiceBank+DEMANDとWHAMR!データセット上でBSP-MPNetを評価する。
論文参考訳（メタデータ） (2025-03-27T14:52:06Z)
SigWavNet: Learning Multiresolution Signal Wavelet Network for Speech Emotion Recognition [17.568724398229232]
音声感情認識(SER)は、音声信号の解読から感情状態において重要な役割を果たす。本稿では,SERのための新しいエンド・ツー・エンド(E2E)深層学習フレームワークを提案する。ウェーブレットの能力を利用して、時間領域と周波数領域の両方で効果的なローカライズを行う。
論文参考訳（メタデータ） (2025-02-01T04:18:06Z)
Boosting Open-Vocabulary Object Detection by Handling Background Samples [9.07525578809556]
背景サンプルの処理におけるCLIPの限界に対処する新しい手法を提案する。本稿では,部分的領域を前景として誤分類する問題に対処するために,部分的オブジェクト抑圧(POS)を導入する。提案手法は,様々な開語彙検出器の性能向上を実現することができる。
論文参考訳（メタデータ） (2024-10-11T09:15:50Z)
Mixture-of-Noises Enhanced Forgery-Aware Predictor for Multi-Face Manipulation Detection and Localization [52.87635234206178]
本稿では,多面的操作検出と局所化に適したMoNFAPという新しいフレームワークを提案する。このフレームワークには2つの新しいモジュールが含まれている: Forgery-aware Unified Predictor (FUP) Module と Mixture-of-Noises Module (MNM)。
論文参考訳（メタデータ） (2024-08-05T08:35:59Z)
Coarse-to-Fine Proposal Refinement Framework for Audio Temporal Forgery Detection and Localization [60.899082019130766]
本稿では、フレームレベル検出ネットワーク(FDN)と、音声の時間的偽造検出とローカライゼーションのための改良ネットワーク(PRN)を提案する。 FDNは、偽のフレーム間で情報的不整合の手がかりを抽出し、偽の領域を大まかに示すのに有用な識別的特徴を得る。 PRNは、FDNから派生した粗粒度の提案を洗練するために、信頼スコアと回帰オフセットを予測する責任がある。
論文参考訳（メタデータ） (2024-07-23T15:07:52Z)
A Mask Free Neural Network for Monaural Speech Enhancement [5.773867150765472]
本稿では,MFNetを提案する。MFNetは,音声のマッピングだけでなく,逆雑音のマッピングも可能な,直接的かつシンプルなネットワークである。実験の結果,マッピング手法によるネットワークのマスキング性能は,マスキング法よりも優れていた。
論文参考訳（メタデータ） (2023-06-07T09:39:07Z)
NLIP: Noise-robust Language-Image Pre-training [95.13287735264937]
雑音調和と雑音補完という2つの手法を用いて事前学習の安定化を図るため,NLIPの原理的手法を提案する。我々のNLIPは、画像テキスト事前学習における一般的なノイズ効果をより効率的に軽減することができる。
論文参考訳（メタデータ） (2022-12-14T08:19:30Z)
Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。エンドツーエンドのNAR音声認識システムを提案する。提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文参考訳（メタデータ） (2021-07-20T11:42:26Z)
Efficient Low-Latency Speech Enhancement with Mobile Audio Streaming Networks [6.82469220191368]
高速低遅延音声強調のためのモバイル音声ストリーミングネットワーク(MASnet)を提案する。 MASnetは線形スケールのスペクトログラムを処理し、連続するノイズフレームを複素値比マスクに変換する。
論文参考訳（メタデータ） (2020-08-17T12:18:34Z)
Sparse Mixture of Local Experts for Efficient Speech Enhancement [19.645016575334786]
本稿では,専門的ニューラルネットワークの効率的なアンサンブルを通して,音声を聴覚的に認識するためのディープラーニング手法について検討する。タスクを重複しないサブプロブレムに分割することで、計算複雑性を低減しつつ、デノナイジング性能を向上させることができる。以上の結果から,微調整されたアンサンブルネットワークは,一般のネットワークの発声能力を上回ることができることがわかった。
論文参考訳（メタデータ） (2020-05-16T23:23:22Z)
Simultaneous Denoising and Dereverberation Using Deep Embedding Features [64.58693911070228]
ディープ埋め込み特徴を用いた同時発声・発声同時学習法を提案する。ノイズ発生段階では、DCネットワークを利用してノイズのないディープ埋込み特性を抽出する。残響段階では、教師なしのK平均クラスタリングアルゴリズムの代わりに、別のニューラルネットワークを用いて無響音声を推定する。
論文参考訳（メタデータ） (2020-04-06T06:34:01Z)
ADRN: Attention-based Deep Residual Network for Hyperspectral Image Denoising [52.01041506447195]
ノイズの多いHSIからクリーンなHSIへのマッピングを学習するために,注目に基づくディープ残差ネットワークを提案する。実験の結果,提案手法は定量的および視覚的評価において最先端の手法よりも優れていた。
論文参考訳（メタデータ） (2020-03-04T08:36:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。