Fugu-MT 論文翻訳(概要): McNet: Fuse Multiple Cues for Multichannel Speech Enhancement

論文の概要: McNet: Fuse Multiple Cues for Multichannel Speech Enhancement

arxiv url: http://arxiv.org/abs/2211.08872v1
Date: Wed, 16 Nov 2022 12:25:54 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-17 16:35:23.156092
Title: McNet: Fuse Multiple Cues for Multichannel Speech Enhancement
Title（参考訳）: McNet:マルチチャネル音声強調のためのFuse Multiple Cues
Authors: Yujie Yang, Changsheng Quan, Xiaofei Li
Abstract要約: 本稿では,全帯域空間,狭帯域空間,サブバンドスペクトル,全帯域スペクトル情報をそれぞれ利用するために4つのモジュールをカスケードするMcNetというマルチキュー融合ネットワークを提案する。実験の結果、提案するネットワークの各モジュールは独自のコントリビューションを持ち、特に他の最先端の手法よりも優れていることがわかった。
参考スコア（独自算出の注目度）: 7.63374500359543
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In multichannel speech enhancement, both spectral and spatial information are vital for discriminating between speech and noise. How to fully exploit these two types of information and their temporal dynamics remains an interesting research problem. As a solution to this problem, this paper proposes a multi-cue fusion network named McNet, which cascades four modules to respectively exploit the full-band spatial, narrow-band spatial, sub-band spectral, and full-band spectral information. Experiments show that each module in the proposed network has its unique contribution and, as a whole, notably outperforms other state-of-the-art methods.
Abstract（参考訳）: 多チャンネル音声強調では、スペクトル情報と空間情報の両方が音声と雑音の区別に不可欠である。これらの2種類の情報の活用方法とその時間的ダイナミクスは、いまだに興味深い研究課題である。そこで本稿では,マルチキュー融合ネットワークであるmcnetを提案する。これは4つのモジュールをカスケードし,それぞれフルバンド空間,狭帯域空間,サブバンドスペクトル,フルバンドスペクトル情報を利用する。実験の結果、提案するネットワークの各モジュールは独自のコントリビューションを持ち、特に他の最先端の手法よりも優れていることがわかった。

関連論文リスト

FindRec: Stein-Guided Entropic Flow for Multi-Modal Sequential Recommendation [50.438552588818]
textbfFindRec (textbfFlexible unified textbfinformation textbfdisentanglement for multi-modal sequence textbfRecommendation)を提案する。 Stein kernel-based Integrated Information Coordination Module (IICM) は理論上、マルチモーダル特徴とIDストリーム間の分散一貫性を保証する。マルチモーダル特徴を文脈的関連性に基づいて適応的にフィルタリング・結合するクロスモーダル・エキスパート・ルーティング機構。
論文参考訳（メタデータ） (2025-07-07T04:09:45Z)
Optimizing Speech Multi-View Feature Fusion through Conditional Computation [51.23624575321469]
自己教師付き学習(SSL)機能は、軽量で多目的な多視点音声表現を提供する。 SSLは、FBanksのような従来のスペクトル機能とアップデートの方向で競合する。本稿では,条件計算に基づく新しい一般化された特徴融合フレームワークを提案する。
論文参考訳（メタデータ） (2025-01-14T12:12:06Z)
Dense Audio-Visual Event Localization under Cross-Modal Consistency and Multi-Temporal Granularity Collaboration [48.57159286673662]
本論文は、より長い未編集映像に対する音声・視覚的シーン理解の促進を目的としている。本稿では,Cross-Modal Consistency CollaborationとMulti-Temporal Granularity Collaborationの2つのコアモジュールからなる新しいCCNetを紹介する。 UnAV-100データセットの実験では、モジュール設計が検証され、高密度オーディオ視覚イベントのローカライゼーションにおける最先端のパフォーマンスが新たに向上した。
論文参考訳（メタデータ） (2024-12-17T07:43:36Z)
Accelerated Multi-Contrast MRI Reconstruction via Frequency and Spatial Mutual Learning [50.74383395813782]
本稿では,周波数・空間相互学習ネットワーク(FSMNet)を提案する。提案したFSMNetは, 加速度係数の異なるマルチコントラストMR再構成タスクに対して, 最先端の性能を実現する。
論文参考訳（メタデータ） (2024-09-21T12:02:47Z)
LibriheavyMix: A 20,000-Hour Dataset for Single-Channel Reverberant Multi-Talker Speech Separation, ASR and Speaker Diarization [31.01716151301142]
本稿では、音声分離、音声認識、話者ダイアリゼーションの研究を進めるために、大規模遠距離重畳音声データセットを提案する。このデータセットは、マルチストーカー、リバーラント環境において、Who氏の“What and When’’”を復号するための重要なリソースである。
論文参考訳（メタデータ） (2024-09-01T19:23:08Z)
MFF-EINV2: Multi-scale Feature Fusion across Spectral-Spatial-Temporal Domains for Sound Event Localization and Detection [4.165508411354963]
イベント独立ネットワークV2(EINV2)は、音事象の局所化と検出において優れた性能を発揮している。本稿では,マルチスケール・フィーチャー・フュージョン(MFF)モジュールという3段階のネットワーク構造を提案し,スペクトル領域,空間領域,時間領域にまたがるマルチスケール特徴を抽出する。
論文参考訳（メタデータ） (2024-06-13T03:03:02Z)
Enhancing Multimodal Unified Representations for Cross Modal Generalization [52.16653133604068]
我々は、コードブック(TOC)のトレーニング不要最適化と、FCID(Fin and Coarse Cross-modal Information Disentangling)を提案する。これらの方法は、各モードの特定の特性に合わせて、事前学習から統一された離散表現を洗練し、きめ細かな情報と粗い情報の絡み合わせを行う。
論文参考訳（メタデータ） (2024-03-08T09:16:47Z)
Frequency Domain Nuances Mining for Visible-Infrared Person Re-identification [75.87443138635432]
既存の手法は主に、識別周波数情報を無視しながら空間情報を利用する。本稿では,周波数領域情報を対象とした周波数領域Nuances Mining(FDNM)手法を提案する。本手法は,SYSU-MM01データセットにおいて,Ran-1精度が5.2%,mAPが5.8%向上する。
論文参考訳（メタデータ） (2024-01-04T09:19:54Z)
Hyperspectral Image Reconstruction via Combinatorial Embedding of Cross-Channel Spatio-Spectral Clues [6.580484964018551]
既存の学習に基づくハイパースペクトル再構成手法は、ハイパースペクトルバンド間の情報を完全に活用する際の限界を示す。それぞれの超スペクトル空間における相互依存性について検討する。これらの組み込み機能は、チャネル間相関をクエリすることで、完全に活用することができる。
論文参考訳（メタデータ） (2023-12-18T11:37:19Z)
Frequency Spectrum is More Effective for Multimodal Representation and Fusion: A Multimodal Spectrum Rumor Detector [42.079129968058275]
画像とテキストを混在させるようなマルチモーダルコンテンツは、ソーシャルメディアにおける噂検出に重大な課題をもたらす。この研究は、空間的特徴を周波数スペクトルに効率的に変換する周波数領域におけるマルチモーダル噂検出の最初の試みである。二重コントラスト学習を用いた新しい周波数スペクトル表現とfUsionネットワーク(FSRU)は、周波数スペクトルがマルチモーダル表現と融合により効果的であることを明らかにする。
論文参考訳（メタデータ） (2023-12-18T08:55:42Z)
MIMO-DBnet: Multi-channel Input and Multiple Outputs DOA-aware Beamforming Network for Speech Separation [55.533789120204055]
混合信号のみを用いた方向案内音声分離のためのエンドツーエンドビームフォーミングネットワークを提案する。具体的には,複数チャネルの入力と複数出力アーキテクチャを設計し,各ソースの指向性に基づく埋め込みとビームフォーミング重みを推定する。
論文参考訳（メタデータ） (2022-12-07T01:52:40Z)
Multimodal Multi-Head Convolutional Attention with Various Kernel Sizes for Medical Image Super-Resolution [56.622832383316215]
超解像CTおよびMRIスキャンのための新しいマルチヘッド畳み込みアテンションモジュールを提案する。我々の注目モジュールは、畳み込み操作を用いて、複数の入力テンソルに対して共同的な空間チャネルアテンションを行う。それぞれの頭部は空間的注意に対する特定の減少率に応じた受容野の大きさの異なる複数の注意ヘッドを導入している。
論文参考訳（メタデータ） (2022-04-08T07:56:55Z)
Looking into Your Speech: Learning Cross-modal Affinity for Audio-visual Speech Separation [73.1652905564163]
本稿では,音声-視覚的ニューラル処理を用いて音声信号と映像を分離する問題に対処する。従来の手法では、フレームワイドマッチング基準を用いて、音声とビデオの共有情報を抽出する。音声と視覚ストリーム間の局所的な親和性だけでなく,グローバル通信を学習するクロスモーダル親和性ネットワーク(CaffNet)を提案する。
論文参考訳（メタデータ） (2021-03-25T15:39:12Z)
Concentrated Multi-Grained Multi-Attention Network for Video Based Person Re-Identification [5.761429719197307]
咬合はビデオベースのRe-ID(Re-ID)タスクにおいて依然として深刻な問題である。集中型多粒性マルチアテンションネットワーク(CMMANet)を提案する。
論文参考訳（メタデータ） (2020-09-28T02:18:06Z)
Temporal-Spatial Neural Filter: Direction Informed End-to-End Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。主な課題は、複雑な音響環境とリアルタイム処理の要件である。複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文参考訳（メタデータ） (2020-01-02T11:12:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。