論文の概要: Multi-Microphone Speaker Separation by Spatial Regions
- arxiv url: http://arxiv.org/abs/2303.07143v1
- Date: Mon, 13 Mar 2023 14:11:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-14 14:31:39.390716
- Title: Multi-Microphone Speaker Separation by Spatial Regions
- Title(参考訳): 空間領域によるマルチマイクロホン話者分離
- Authors: Julian Wechsler, Srikanth Raj Chetupalli, Wolfgang Mack, Emanu\"el A.
P. Habets
- Abstract要約: 残響マルチマイクロホンの音源分離の課題について考察する。
我々は、最先端ネットワークの修正版を用いたデータ駆動型アプローチを提案する。
両トレーニング手法は,各領域をネットワーク出力に固定したマッピングを行い,同等の性能を実現し,ネットワークが空間情報を利用することを示す。
- 参考スコア(独自算出の注目度): 9.156939957189504
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the task of region-based source separation of reverberant
multi-microphone recordings. We assume pre-defined spatial regions with a
single active source per region. The objective is to estimate the signals from
the individual spatial regions as captured by a reference microphone while
retaining a correspondence between signals and spatial regions. We propose a
data-driven approach using a modified version of a state-of-the-art network,
where different layers model spatial and spectro-temporal information. The
network is trained to enforce a fixed mapping of regions to network outputs.
Using speech from LibriMix, we construct a data set specifically designed to
contain the region information. Additionally, we train the network with
permutation invariant training. We show that both training methods result in a
fixed mapping of regions to network outputs, achieve comparable performance,
and that the networks exploit spatial information. The proposed network
outperforms a baseline network by 1.5 dB in scale-invariant
signal-to-distortion ratio.
- Abstract(参考訳): 残響マルチマイクロホン記録の領域ベース音源分離の課題について検討する。
各領域ごとに単一のアクティブソースを持つ事前定義された空間領域を仮定する。
本研究の目的は,信号と空間領域の対応性を保ちつつ,参照マイクロホンが捉えた個々の空間領域からの信号を推定することである。
本稿では,異なるレイヤが空間情報と分光時間情報をモデル化する,最先端ネットワークの修正版を用いたデータ駆動型アプローチを提案する。
ネットワークは、ネットワーク出力に一定の領域のマッピングを強制するように訓練される。
LibriMixの音声を用いて、地域情報を含むように設計されたデータセットを構築する。
さらに、置換不変のトレーニングでネットワークをトレーニングする。
両トレーニング手法は,ネットワーク出力に対する領域の固定マッピングを行い,同等の性能を実現し,ネットワークが空間情報を利用することを示す。
提案したネットワークは、1.5dBのベースラインネットワークをスケール不変の信号-歪み比で上回る。
関連論文リスト
- Feature Aggregation in Joint Sound Classification and Localization
Neural Networks [0.0]
現在の最先端の音源ローカライゼーション深層学習ネットワークは、アーキテクチャ内での機能集約を欠いている。
我々は,コンピュータビジョンニューラルネットワークから信号検出ニューラルネットワークへ特徴集約技術を適用する。
論文 参考訳(メタデータ) (2023-10-29T16:37:14Z) - Constructing Indoor Region-based Radio Map without Location Labels [18.34037687586167]
本稿では、位置ラベルを使わずに受信信号強度(RSS)測定から地域ベースの無線マップを開発する。
構築は、屋内エリアの各地域を正確に1度訪問するデバイスから、盲目的に収集されたRSS測定データに基づいて行われる。
提案手法は, 重み付きセントロイド局在化(WCL)ベースラインと比較して, 領域の局所化誤差を約50%削減する。
論文 参考訳(メタデータ) (2023-08-31T14:27:36Z) - Multi-channel Speech Separation Using Spatially Selective Deep
Non-linear Filters [21.672683390080106]
複数話者による複数チャンネル分離タスクにおいて、混合音から各音声信号を復元することを目的とする。
本研究では,深層ニューラルネットワークを用いた空間選択的フィルタ(SSF)を提案する。
論文 参考訳(メタデータ) (2023-04-24T11:44:00Z) - SLAN: Self-Locator Aided Network for Cross-Modal Understanding [89.20623874655352]
モーダル理解タスクのための自己ローカレータ支援ネットワーク(SLAN)を提案する。
SLANは、異なるテキストで条件付けられた関心領域をローカライズするための領域フィルタと領域アダプタから構成される。
5つのクロスモーダル理解タスクにおいて、かなり競争力のある結果が得られる。
論文 参考訳(メタデータ) (2022-11-28T11:42:23Z) - Implicit Neural Spatial Filtering for Multichannel Source Separation in
the Waveform Domain [131.74762114632404]
モデルはエンドツーエンドで訓練され、空間処理を暗黙的に実行する。
提案したモデルを実世界のデータセット上で評価し,そのモデルがオラクルビームフォーマの性能と一致することを示す。
論文 参考訳(メタデータ) (2022-06-30T17:13:01Z) - Three-Way Deep Neural Network for Radio Frequency Map Generation and
Source Localization [67.93423427193055]
空間、時間、周波数領域にわたる無線スペクトルのモニタリングは、5Gと6G以上の通信技術において重要な特徴となる。
本稿では,空間領域全体にわたる不規則分散計測を補間するGAN(Generative Adversarial Network)機械学習モデルを提案する。
論文 参考訳(メタデータ) (2021-11-23T22:25:10Z) - Learning Signal-Agnostic Manifolds of Neural Fields [50.066449953522685]
ニューラルネットワークを利用して、画像、形状、オーディオ、およびモーダル・オーディオヴィジュアル領域の基盤となる構造を捉える。
GEMの基底多様体を横切ることで、信号領域に新しいサンプルを生成できることが示される。
論文 参考訳(メタデータ) (2021-11-11T18:57:40Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z) - Spatial Attention Pyramid Network for Unsupervised Domain Adaptation [66.75008386980869]
教師なし領域適応は様々なコンピュータビジョンタスクにおいて重要である。
教師なし領域適応のための新しい空間注意ピラミッドネットワークを設計する。
我々の手法は最先端の手法に対して大きなマージンで好適に機能する。
論文 参考訳(メタデータ) (2020-03-29T09:03:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。