論文の概要: Enhanced Neural Beamformer with Spatial Information for Target Speech
Extraction
- arxiv url: http://arxiv.org/abs/2306.15942v1
- Date: Wed, 28 Jun 2023 06:03:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-29 15:36:21.819003
- Title: Enhanced Neural Beamformer with Spatial Information for Target Speech
Extraction
- Title(参考訳): ターゲット音声抽出のための空間情報付き強化ニューラルビームフォーマ
- Authors: Aoqi Guo, Junnan Wu, Peng Gao, Wenbo Zhu, Qinwen Guo, Dazhi Gao and
Yujun Wang
- Abstract要約: 本稿では,空間情報を利用してニューラルビームフォーマの性能を向上させるターゲット音声抽出ネットワークを提案する。
本稿では,空間情報に対するニューラルビームフォーマの知覚を高めるマルチヘッド・クロスアテンション機構を提案する。
実験により,より合理的なマスク推定ネットワークと空間情報に基づくクロスアテンション機構をニューラルネットワークに組み込んだアプローチが,音声分離性能を効果的に向上することを示した。
- 参考スコア(独自算出の注目度): 9.578697488575937
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, deep learning-based beamforming algorithms have shown promising
performance in target speech extraction tasks. However, most systems do not
fully utilize spatial information. In this paper, we propose a target speech
extraction network that utilizes spatial information to enhance the performance
of neural beamformer. To achieve this, we first use the UNet-TCN structure to
model input features and improve the estimation accuracy of the speech
pre-separation module by avoiding information loss caused by direct
dimensionality reduction in other models. Furthermore, we introduce a
multi-head cross-attention mechanism that enhances the neural beamformer's
perception of spatial information by making full use of the spatial information
received by the array. Experimental results demonstrate that our approach,
which incorporates a more reasonable target mask estimation network and a
spatial information-based cross-attention mechanism into the neural beamformer,
effectively improves speech separation performance.
- Abstract(参考訳): 近年,深層学習に基づくビームフォーミングアルゴリズムは,ターゲット音声抽出作業において有望な性能を示した。
しかし、ほとんどのシステムは空間情報を十分に利用していない。
本稿では,空間情報を利用してニューラルビームフォーマの性能を向上させるターゲット音声抽出ネットワークを提案する。
そこで我々はまず, unet-tcn構造を用いて入力特徴をモデル化し, 他のモデルにおける直接次元化による情報損失を回避し, 音声前分離モジュールの推定精度を向上させる。
さらに,アレイが受信する空間情報を十分に活用することにより,神経ビームフォーマーの空間情報の知覚を高めるマルチヘッドクロスアテンション機構を提案する。
実験の結果,より合理的なターゲットマスク推定ネットワークと空間情報に基づくクロスタッチ機構を組み込んだアプローチが,音声分離性能を効果的に向上することが示された。
関連論文リスト
- Classification-Aided Robust Multiple Target Tracking Using Neural
Enhanced Message Passing [12.135800589264532]
本稿では,レーダーセンサによる計測を用いて,強い乱雑な環境下で未知のターゲットを追跡するという課題に対処する。
まず,統合されたメッセージパッシングによって得られた信念を付加情報としてニューラルネットワークに入力する,新しい拡張メッセージパッシング手法を提案する。
本稿では,ニューラルネットワークを用いた分類支援型ロバストなマルチターゲット追跡アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-19T01:41:11Z) - Distributed Neural Representation for Reactive in situ Visualization [23.80657290203846]
Inlicit Neural representations (INR) は、大規模ボリュームデータを圧縮するための強力なツールとして登場した。
分散ニューラル表現を開発し,それをその場での可視化に最適化する。
我々の技術はプロセス間のデータ交換を排除し、最先端の圧縮速度、品質、比率を達成する。
論文 参考訳(メタデータ) (2023-03-28T03:55:47Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - Variational Structured Attention Networks for Deep Visual Representation
Learning [49.80498066480928]
空間的注意マップとチャネル的注意の両方を原則的に共同学習するための統合的深層フレームワークを提案する。
具体的には,確率的表現学習フレームワークに注目度の推定と相互作用を統合する。
ニューラルネットワーク内で推論ルールを実装し,確率パラメータとcnnフロントエンドパラメータのエンドツーエンド学習を可能にする。
論文 参考訳(メタデータ) (2021-03-05T07:37:24Z) - Sparse Signal Models for Data Augmentation in Deep Learning ATR [0.8999056386710496]
ドメイン知識を取り入れ,データ集約学習アルゴリズムの一般化能力を向上させるためのデータ拡張手法を提案する。
本研究では,空間領域における散乱中心のスパース性とアジムタル領域における散乱係数の滑らかな変動構造を活かし,過パラメータモデルフィッティングの問題を解く。
論文 参考訳(メタデータ) (2020-12-16T21:46:33Z) - InfoFocus: 3D Object Detection for Autonomous Driving with Dynamic
Information Modeling [65.47126868838836]
動的情報モデリングを用いた新しい3次元オブジェクト検出フレームワークを提案する。
粗い予測は、ボクセルベースの領域提案ネットワークを介して第1段階で生成される。
大規模なnuScenes 3D検出ベンチマークで実験を行った。
論文 参考訳(メタデータ) (2020-07-16T18:27:08Z) - Rectified Linear Postsynaptic Potential Function for Backpropagation in
Deep Spiking Neural Networks [55.0627904986664]
スパイキングニューラルネットワーク(SNN)は、時間的スパイクパターンを用いて情報を表現し、伝達する。
本稿では,情報符号化,シナプス可塑性,意思決定におけるスパイクタイミングダイナミクスの寄与について検討し,将来のDeepSNNやニューロモルフィックハードウェアシステムの設計への新たな視点を提供する。
論文 参考訳(メタデータ) (2020-03-26T11:13:07Z) - BiDet: An Efficient Binarized Object Detector [96.19708396510894]
本稿では,効率的な物体検出のためのバイナライズニューラルネットワークのBiDetを提案する。
我々のBiDetは、冗長除去による物体検出にバイナリニューラルネットワークの表現能力を完全に活用している。
我々の手法は、最先端のバイナリニューラルネットワークを大きなマージンで上回る。
論文 参考訳(メタデータ) (2020-03-09T08:16:16Z) - Effective AER Object Classification Using Segmented
Probability-Maximization Learning in Spiking Neural Networks [23.44400682585093]
アドレスイベント表現(AER)カメラは、高時間分解能と低消費電力の利点により注目されている。
本稿では,新しいセグメント化確率最大化(SPA)学習アルゴリズムを用いたAERオブジェクト分類モデルを提案する。
論文 参考訳(メタデータ) (2020-02-14T04:10:58Z) - Spatial-Spectral Residual Network for Hyperspectral Image
Super-Resolution [82.1739023587565]
ハイパースペクトル画像超解像のための新しいスペクトル空間残差ネットワーク(SSRNet)を提案する。
提案手法は,2次元畳み込みではなく3次元畳み込みを用いて空間スペクトル情報の探索を効果的に行うことができる。
各ユニットでは空間的・時間的分離可能な3次元畳み込みを用いて空間的・スペクトル的な情報を抽出する。
論文 参考訳(メタデータ) (2020-01-14T03:34:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。