論文の概要: A Mask Free Neural Network for Monaural Speech Enhancement
- arxiv url: http://arxiv.org/abs/2306.04286v1
- Date: Wed, 7 Jun 2023 09:39:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-08 15:19:05.173672
- Title: A Mask Free Neural Network for Monaural Speech Enhancement
- Title(参考訳): モナラ音声強調のためのマスクフリーニューラルネットワーク
- Authors: Liang Liu, Haixin Guan, Jinlong Ma, Wei Dai, Guangyong Wang, Shaowei
Ding
- Abstract要約: 本稿では,MFNetを提案する。MFNetは,音声のマッピングだけでなく,逆雑音のマッピングも可能な,直接的かつシンプルなネットワークである。
実験の結果,マッピング手法によるネットワークのマスキング性能は,マスキング法よりも優れていた。
- 参考スコア(独自算出の注目度): 5.773867150765472
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In speech enhancement, the lack of clear structural characteristics in the
target speech phase requires the use of conservative and cumbersome network
frameworks. It seems difficult to achieve competitive performance using direct
methods and simple network architectures. However, we propose the MFNet, a
direct and simple network that can not only map speech but also map reverse
noise. This network is constructed by stacking global local former blocks
(GLFBs), which combine the advantages of Mobileblock for global processing and
Metaformer architecture for local interaction. Our experimental results
demonstrate that our network using mapping method outperforms masking methods,
and direct mapping of reverse noise is the optimal solution in strong noise
environments. In a horizontal comparison on the 2020 Deep Noise Suppression
(DNS) challenge test set without reverberation, to the best of our knowledge,
MFNet is the current state-of-the-art (SOTA) mapping model.
- Abstract(参考訳): 音声強調では、ターゲット音声位相における明確な構造的特徴の欠如は、保守的で面倒なネットワークフレームワークの使用を必要とする。
直接手法と単純なネットワークアーキテクチャを使って競合する性能を達成するのは難しい。
しかし,提案するMFNetは,音声だけでなく,逆雑音もマップできる,直接的かつシンプルなネットワークである。
このネットワークはグローバルなローカルブロック(GLFB)を積み重ねて構築され、グローバルな処理にMobileblockを、ローカルなインタラクションにMetaformerアーキテクチャを併用する。
実験の結果,提案手法はマスキング法より優れており,逆ノイズの直接マッピングは強騒音環境における最適解であることがわかった。
2020年のディープノイズ抑制(DNS)テストセットの水平比較では、私たちの知る限り、MFNetは現在の最先端(SOTA)マッピングモデルです。
関連論文リスト
- TOPIQ: A Top-down Approach from Semantics to Distortions for Image
Quality Assessment [53.72721476803585]
画像品質評価(IQA)は、ディープニューラルネットワークによる顕著な進歩を目の当たりにしたコンピュータビジョンの基本課題である。
本稿では,高レベルの意味論を用いてIQAネットワークを誘導し,意味的に重要な局所歪み領域に注目するトップダウンアプローチを提案する。
提案手法の重要な要素は,低レベル特徴に対するアテンションマップを算出した,クロススケールアテンション機構である。
論文 参考訳(メタデータ) (2023-08-06T09:08:37Z) - Complementary Random Masking for RGB-Thermal Semantic Segmentation [63.93784265195356]
RGB-熱的セマンティックセグメンテーションは、悪天候や照明条件における信頼性の高いセマンティックセマンティックセマンティック理解を実現するための潜在的ソリューションである。
本稿では,1)RGB-T画像の相補的ランダムマスキング戦略,2)クリーンモードとマスク入力モードの自己蒸留損失を提案する。
3つのRGB-Tセマンティックセマンティックセグメンテーションベンチマークで最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-30T13:57:21Z) - Parallel Gated Neural Network With Attention Mechanism For Speech
Enhancement [0.0]
本稿では,特徴抽出ブロック (FEB) と補償拡張ブロック (ComEB) とマスクブロック (MB) からなる新しい単調音声強調システムを提案する。
Librispeech データセットを用いて実験を行い,提案モデルがESTOI と PESQ のスコアから,最近のモデルよりも優れた性能が得られることを示した。
論文 参考訳(メタデータ) (2022-10-26T06:42:19Z) - Adaptive Convolutional Dictionary Network for CT Metal Artifact
Reduction [62.691996239590125]
本稿では,金属人工物削減のための適応畳み込み辞書ネットワーク(ACDNet)を提案する。
我々のACDNetは、トレーニングデータを介して、アーティファクトフリーCT画像の事前を自動で学習し、入力されたCT画像ごとに表現カーネルを適応的に調整することができる。
本手法は,モデルに基づく手法の明確な解釈可能性を継承し,学習に基づく手法の強力な表現能力を維持する。
論文 参考訳(メタデータ) (2022-05-16T06:49:36Z) - A Unified Architecture of Semantic Segmentation and Hierarchical
Generative Adversarial Networks for Expression Manipulation [52.911307452212256]
セマンティックセグメンテーションと階層的GANの統一アーキテクチャを開発する。
我々のフレームワークのユニークな利点は、将来的なセマンティックセグメンテーションネットワーク条件を生成モデルに渡すことである。
我々は,AffectNetとRaFDの2つの難解な表情翻訳ベンチマークとセマンティックセグメンテーションベンチマークであるCelebAMask-HQについて評価を行った。
論文 参考訳(メタデータ) (2021-12-08T22:06:31Z) - Time-Domain Mapping Based Single-Channel Speech Separation With
Hierarchical Constraint Training [10.883458728718047]
複数話者音声認識には単一チャンネル音声分離が必要である。
時間領域音声分離網(TasNet)に着目した最近の深層学習に基づくアプローチ
音声分離用混合物からクリーンソースを直接近似する注意増強型DPRNN(AttnAugDPRNN)を導入する。
論文 参考訳(メタデータ) (2021-10-20T14:42:50Z) - Spatiotemporal Graph Neural Network based Mask Reconstruction for Video
Object Segmentation [70.97625552643493]
本稿では,クラス非依存オブジェクトを半教師あり設定でセグメント化するタスクについて述べる。
提案手法のすべてを利用して局所的なコンテキストを捕捉する新しいグラフニューラルネットワーク(TG-Net)を提案する。
論文 参考訳(メタデータ) (2020-12-10T07:57:44Z) - Rethinking FUN: Frequency-Domain Utilization Networks [21.10493050675827]
本稿では、新しい周波数領域利用ネットワークのファミリーであるFUNを紹介する。
これらのネットワークは、その領域で直接作業することで周波数領域の固有効率を利用する。
周波数領域での動作は、アーキテクチャに明示的な変更を加えることなく、推論時に入力を動的に圧縮できることを示す。
論文 参考訳(メタデータ) (2020-12-06T19:16:37Z) - Contextual Interference Reduction by Selective Fine-Tuning of Neural
Networks [1.0152838128195465]
本研究では,不整合前景対象オブジェクト表現の干渉におけるコンテキストの役割について検討する。
私たちはボトムアップとトップダウンの処理パラダイムの恩恵を受けるフレームワークに取り組んでいます。
論文 参考訳(メタデータ) (2020-11-21T20:11:12Z) - Channel-Attention Dense U-Net for Multichannel Speech Enhancement [21.94418736688929]
我々は、ビームフォーミングを模倣するチャネルアテンション機構をディープアーキテクチャ内に導入する。
我々は,CHiME-3データセットの最先端アプローチに対して,ネットワークの優れた性能を示す。
論文 参考訳(メタデータ) (2020-01-30T19:56:52Z) - Depthwise Non-local Module for Fast Salient Object Detection Using a
Single Thread [136.2224792151324]
本稿では,高速な物体検出のための新しいディープラーニングアルゴリズムを提案する。
提案アルゴリズムは,1つのCPUスレッドと同時に,競合精度と高い推論効率を実現する。
論文 参考訳(メタデータ) (2020-01-22T15:23:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。