論文の概要: Spatial and spectral deep attention fusion for multi-channel speech
separation using deep embedding features
- arxiv url: http://arxiv.org/abs/2002.01626v1
- Date: Wed, 5 Feb 2020 03:49:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 22:05:58.850293
- Title: Spatial and spectral deep attention fusion for multi-channel speech
separation using deep embedding features
- Title(参考訳): 深部埋め込み特徴を用いたマルチチャネル音声分離のための空間的・スペクトル的深部注意融合
- Authors: Cunhang Fan, Bin Liu, Jianhua Tao, Jiangyan Yi, and Zhengqi Wen
- Abstract要約: マルチチャネルディープクラスタリング(MDC)は、音声分離に優れた性能を得た。
本研究では,スペクトルおよび空間的特徴の重みを動的に制御し,それらを深く結合するディープ・アテンション・フュージョン法を提案する。
実験結果から,提案手法はMDCベースラインよりも優れ,理想的なバイナリマスク(IBM)よりも優れていた。
- 参考スコア(独自算出の注目度): 60.20150317299749
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-channel deep clustering (MDC) has acquired a good performance for
speech separation. However, MDC only applies the spatial features as the
additional information. So it is difficult to learn mutual relationship between
spatial and spectral features. Besides, the training objective of MDC is
defined at embedding vectors, rather than real separated sources, which may
damage the separation performance. In this work, we propose a deep attention
fusion method to dynamically control the weights of the spectral and spatial
features and combine them deeply. In addition, to solve the training objective
problem of MDC, the real separated sources are used as the training objectives.
Specifically, we apply the deep clustering network to extract deep embedding
features. Instead of using the unsupervised K-means clustering to estimate
binary masks, another supervised network is utilized to learn soft masks from
these deep embedding features. Our experiments are conducted on a spatialized
reverberant version of WSJ0-2mix dataset. Experimental results show that the
proposed method outperforms MDC baseline and even better than the oracle ideal
binary mask (IBM).
- Abstract(参考訳): マルチチャネルディープクラスタリング(MDC)は、音声分離に優れた性能を得た。
しかし、MDCは空間的特徴を付加情報としてのみ適用する。
したがって、空間的特徴とスペクトル的特徴の相互関係を知ることは困難である。
さらに、mdcのトレーニング目標は、実際の分離ソースではなく、埋め込みベクトルで定義されており、分離性能を損なう可能性がある。
本研究では,スペクトル特性と空間特性の重み付けを動的に制御し,それらを深く結合する深層注意融合法を提案する。
さらに、MDCのトレーニング目標問題を解決するために、実際の分離されたソースをトレーニング目標として使用する。
具体的には,深層クラスタリングネットワークを用いて深層埋め込み機能を抽出する。
教師なしのK平均クラスタリングを使ってバイナリマスクを推定する代わりに、他の教師付きネットワークを使用して、これらの深い埋め込み特徴からソフトマスクを学習する。
実験はwsj0-2mixデータセットの空間的残響バージョンを用いて行った。
実験の結果,提案手法はMDCベースラインよりも優れ,オラクル理想のバイナリマスク(IBM)よりも優れていた。
関連論文リスト
- DAAL: Density-Aware Adaptive Line Margin Loss for Multi-Modal Deep Metric Learning [1.9472493183927981]
本稿では,DAAL(Dedentity-Aware Adaptive Margin Loss)と呼ばれる新しい損失関数を提案する。
DAALは、各クラス内の適応サブクラスタの形成を奨励しながら、埋め込みの密度分布を保存する。
ベンチマークによるきめ細かいデータセットの実験は、DAALの優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-07T19:04:24Z) - Mixture-of-Noises Enhanced Forgery-Aware Predictor for Multi-Face Manipulation Detection and Localization [52.87635234206178]
本稿では,多面的操作検出と局所化に適したMoNFAPという新しいフレームワークを提案する。
このフレームワークには2つの新しいモジュールが含まれている: Forgery-aware Unified Predictor (FUP) Module と Mixture-of-Noises Module (MNM)。
論文 参考訳(メタデータ) (2024-08-05T08:35:59Z) - AMFD: Distillation via Adaptive Multimodal Fusion for Multispectral Pedestrian Detection [23.91870504363899]
マルチスペクトル検出におけるダブルストリームネットワークは、マルチモーダルデータに2つの異なる特徴抽出枝を用いる。
これにより、組み込みデバイスにおける多スペクトル歩行者検出が自律システムに広く採用されるのを妨げている。
本稿では,教師ネットワークの本来のモーダル特徴を完全に活用できる適応型モーダル核融合蒸留(AMFD)フレームワークについて紹介する。
論文 参考訳(メタデータ) (2024-05-21T17:17:17Z) - SS-MAE: Spatial-Spectral Masked Auto-Encoder for Multi-Source Remote
Sensing Image Classification [35.52272615695294]
本研究では,HSIとLiDAR/SARデータ共同分類のための空間スペクトルマスク付きオートエンコーダ(SS-MAE)を提案する。
我々のSS-MAEは入力データの空間的およびスペクトル的表現を完全に活用する。
訓練段階における局所的な特徴を補完するため、特徴抽出のために2つの軽量CNNを追加します。
論文 参考訳(メタデータ) (2023-11-08T03:54:44Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - Multi-scale and Cross-scale Contrastive Learning for Semantic
Segmentation [5.281694565226513]
セグメンテーションネットワークによって抽出されたマルチスケール特徴の識別能力を高めるために,コントラスト学習を適用した。
まず、エンコーダのマルチスケール表現を共通の特徴空間にマッピングすることにより、教師付き局所言語制約の新しい形式をインスタンス化する。
論文 参考訳(メタデータ) (2022-03-25T01:24:24Z) - Neural Manifold Clustering and Embedding [13.08270828061924]
非線型部分空間クラスタリングや多様体クラスタリングは、多様体構造に基づいてデータポイントをクラスタリングすることを目的としており、各多様体を特徴空間内の線型部分空間としてパラメータ化することを学ぶ。
ディープニューラルネットワークは、大きなキャパシティと柔軟性を考えると、高非線形設定でこの目標を達成する可能性がある。
ニューラルネットワークを用いた多様体クラスタリングを実現するには、多様体の識別を保証する領域固有の制約と、特徴空間内の線型部分空間に各多様体を埋め込む学習アルゴリズムの2つの重要な要素が必要であると論じる。
論文 参考訳(メタデータ) (2022-01-24T23:13:37Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z) - Hierarchical Deep CNN Feature Set-Based Representation Learning for
Robust Cross-Resolution Face Recognition [59.29808528182607]
クロスリゾリューション顔認識(CRFR)は、インテリジェントな監視およびバイオメトリックフォレンジックにおいて重要である。
既存の浅層学習と深層学習に基づく手法は、HR-LR対を共同特徴空間にマッピングすることに焦点を当てている。
本研究では,多レベル深層畳み込みニューラルネットワーク(CNN)の機能を完全に活用し,堅牢なCRFRを実現することを目的とする。
論文 参考訳(メタデータ) (2021-03-25T14:03:42Z) - Simultaneous Denoising and Dereverberation Using Deep Embedding Features [64.58693911070228]
ディープ埋め込み特徴を用いた同時発声・発声同時学習法を提案する。
ノイズ発生段階では、DCネットワークを利用してノイズのないディープ埋込み特性を抽出する。
残響段階では、教師なしのK平均クラスタリングアルゴリズムの代わりに、別のニューラルネットワークを用いて無響音声を推定する。
論文 参考訳(メタデータ) (2020-04-06T06:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。