論文の概要: Spatial and spectral deep attention fusion for multi-channel speech
separation using deep embedding features
- arxiv url: http://arxiv.org/abs/2002.01626v1
- Date: Wed, 5 Feb 2020 03:49:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 22:05:58.850293
- Title: Spatial and spectral deep attention fusion for multi-channel speech
separation using deep embedding features
- Title(参考訳): 深部埋め込み特徴を用いたマルチチャネル音声分離のための空間的・スペクトル的深部注意融合
- Authors: Cunhang Fan, Bin Liu, Jianhua Tao, Jiangyan Yi, and Zhengqi Wen
- Abstract要約: マルチチャネルディープクラスタリング(MDC)は、音声分離に優れた性能を得た。
本研究では,スペクトルおよび空間的特徴の重みを動的に制御し,それらを深く結合するディープ・アテンション・フュージョン法を提案する。
実験結果から,提案手法はMDCベースラインよりも優れ,理想的なバイナリマスク(IBM)よりも優れていた。
- 参考スコア(独自算出の注目度): 60.20150317299749
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-channel deep clustering (MDC) has acquired a good performance for
speech separation. However, MDC only applies the spatial features as the
additional information. So it is difficult to learn mutual relationship between
spatial and spectral features. Besides, the training objective of MDC is
defined at embedding vectors, rather than real separated sources, which may
damage the separation performance. In this work, we propose a deep attention
fusion method to dynamically control the weights of the spectral and spatial
features and combine them deeply. In addition, to solve the training objective
problem of MDC, the real separated sources are used as the training objectives.
Specifically, we apply the deep clustering network to extract deep embedding
features. Instead of using the unsupervised K-means clustering to estimate
binary masks, another supervised network is utilized to learn soft masks from
these deep embedding features. Our experiments are conducted on a spatialized
reverberant version of WSJ0-2mix dataset. Experimental results show that the
proposed method outperforms MDC baseline and even better than the oracle ideal
binary mask (IBM).
- Abstract(参考訳): マルチチャネルディープクラスタリング(MDC)は、音声分離に優れた性能を得た。
しかし、MDCは空間的特徴を付加情報としてのみ適用する。
したがって、空間的特徴とスペクトル的特徴の相互関係を知ることは困難である。
さらに、mdcのトレーニング目標は、実際の分離ソースではなく、埋め込みベクトルで定義されており、分離性能を損なう可能性がある。
本研究では,スペクトル特性と空間特性の重み付けを動的に制御し,それらを深く結合する深層注意融合法を提案する。
さらに、MDCのトレーニング目標問題を解決するために、実際の分離されたソースをトレーニング目標として使用する。
具体的には,深層クラスタリングネットワークを用いて深層埋め込み機能を抽出する。
教師なしのK平均クラスタリングを使ってバイナリマスクを推定する代わりに、他の教師付きネットワークを使用して、これらの深い埋め込み特徴からソフトマスクを学習する。
実験はwsj0-2mixデータセットの空間的残響バージョンを用いて行った。
実験の結果,提案手法はMDCベースラインよりも優れ,オラクル理想のバイナリマスク(IBM)よりも優れていた。
関連論文リスト
- SS-MAE: Spatial-Spectral Masked Auto-Encoder for Multi-Source Remote
Sensing Image Classification [35.52272615695294]
本研究では,HSIとLiDAR/SARデータ共同分類のための空間スペクトルマスク付きオートエンコーダ(SS-MAE)を提案する。
我々のSS-MAEは入力データの空間的およびスペクトル的表現を完全に活用する。
訓練段階における局所的な特徴を補完するため、特徴抽出のために2つの軽量CNNを追加します。
論文 参考訳(メタデータ) (2023-11-08T03:54:44Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - Accurate and lightweight dehazing via multi-receptive-field non-local
network and novel contrastive regularization [9.90146712189936]
本稿では,マルチ受信フィールド非局所ネットワーク(MRFNLN)を提案する。
マルチストリーム機能アテンションブロック(MSFAB)とクロス非ローカルブロック(CNLB)として設計されている。
これは、150万のパラメータ未満の最近の最先端の脱ハージング手法よりも優れています。
論文 参考訳(メタデータ) (2023-09-28T14:59:16Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Multi-scale and Cross-scale Contrastive Learning for Semantic
Segmentation [5.281694565226513]
セグメンテーションネットワークによって抽出されたマルチスケール特徴の識別能力を高めるために,コントラスト学習を適用した。
まず、エンコーダのマルチスケール表現を共通の特徴空間にマッピングすることにより、教師付き局所言語制約の新しい形式をインスタンス化する。
論文 参考訳(メタデータ) (2022-03-25T01:24:24Z) - Multiscale Convolutional Transformer with Center Mask Pretraining for
Hyperspectral Image Classificationtion [14.33259265286265]
本稿では,空間スペクトル情報の効率的な抽出を実現するために,高スペクトル画像(HSI)のための高速多スケール畳み込みモジュールを提案する。
マスクオートエンコーダと同様に、我々の事前学習法は、エンコーダ内の中央画素の対応するトークンのみをマスクし、残りのトークンをデコーダに入力し、中央画素のスペクトル情報を再構成する。
論文 参考訳(メタデータ) (2022-03-09T14:42:26Z) - Neural Manifold Clustering and Embedding [13.08270828061924]
非線型部分空間クラスタリングや多様体クラスタリングは、多様体構造に基づいてデータポイントをクラスタリングすることを目的としており、各多様体を特徴空間内の線型部分空間としてパラメータ化することを学ぶ。
ディープニューラルネットワークは、大きなキャパシティと柔軟性を考えると、高非線形設定でこの目標を達成する可能性がある。
ニューラルネットワークを用いた多様体クラスタリングを実現するには、多様体の識別を保証する領域固有の制約と、特徴空間内の線型部分空間に各多様体を埋め込む学習アルゴリズムの2つの重要な要素が必要であると論じる。
論文 参考訳(メタデータ) (2022-01-24T23:13:37Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z) - Hierarchical Deep CNN Feature Set-Based Representation Learning for
Robust Cross-Resolution Face Recognition [59.29808528182607]
クロスリゾリューション顔認識(CRFR)は、インテリジェントな監視およびバイオメトリックフォレンジックにおいて重要である。
既存の浅層学習と深層学習に基づく手法は、HR-LR対を共同特徴空間にマッピングすることに焦点を当てている。
本研究では,多レベル深層畳み込みニューラルネットワーク(CNN)の機能を完全に活用し,堅牢なCRFRを実現することを目的とする。
論文 参考訳(メタデータ) (2021-03-25T14:03:42Z) - Simultaneous Denoising and Dereverberation Using Deep Embedding Features [64.58693911070228]
ディープ埋め込み特徴を用いた同時発声・発声同時学習法を提案する。
ノイズ発生段階では、DCネットワークを利用してノイズのないディープ埋込み特性を抽出する。
残響段階では、教師なしのK平均クラスタリングアルゴリズムの代わりに、別のニューラルネットワークを用いて無響音声を推定する。
論文 参考訳(メタデータ) (2020-04-06T06:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。