論文の概要: DNN-Based Distributed Multichannel Mask Estimation for Speech
Enhancement in Microphone Arrays
- arxiv url: http://arxiv.org/abs/2002.06016v2
- Date: Mon, 16 Mar 2020 15:58:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-01 13:39:26.824770
- Title: DNN-Based Distributed Multichannel Mask Estimation for Speech
Enhancement in Microphone Arrays
- Title(参考訳): dnnを用いたマイクロホンアレー音声強調のための分散マルチチャネルマスク推定
- Authors: Nicolas Furnon (LORIA, MULTISPEECH), Romain Serizel (LORIA,
MULTISPEECH), Irina Illina (LORIA, MULTISPEECH), Slim Essid (LTCI)
- Abstract要約: 本稿では,分散適応ノード固有信号推定手法をニューラルネットワークフレームワークに拡張することを提案する。
2つのノードの配列において、この追加信号がマスクを予測するために効率的に考慮され、より良い音声強調性能が得られることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multichannel processing is widely used for speech enhancement but several
limitations appear when trying to deploy these solutions to the real-world.
Distributed sensor arrays that consider several devices with a few microphones
is a viable alternative that allows for exploiting the multiple devices
equipped with microphones that we are using in our everyday life. In this
context, we propose to extend the distributed adaptive node-specific signal
estimation approach to a neural networks framework. At each node, a local
filtering is performed to send one signal to the other nodes where a mask is
estimated by a neural network in order to compute a global multi-channel Wiener
filter. In an array of two nodes, we show that this additional signal can be
efficiently taken into account to predict the masks and leads to better speech
enhancement performances than when the mask estimation relies only on the local
signals.
- Abstract(参考訳): マルチチャネル処理は音声強調に広く用いられているが、これらのソリューションを現実世界に展開しようとするといくつかの制限が現れる。
マイクロフォンを持つ複数のデバイスを考慮に入れた分散センサアレイは、私たちの日常生活で使用しているマイクロフォンを備えた複数のデバイスを活用するための、実行可能な代替手段だ。
本稿では,分散適応ノード固有信号推定手法をニューラルネットワークフレームワークに拡張することを提案する。
各ノードにおいて、グローバルなマルチチャネルWienerフィルタを計算するために、マスクがニューラルネットワークによって推定される他のノードに1つの信号を送信するために局所フィルタリングが行われる。
2つのノードの配列において、この追加信号がマスクの予測に効果的に考慮され、マスク推定が局所的な信号のみに依存する場合よりも優れた音声強調性能が得られることを示す。
関連論文リスト
- Joint Channel Estimation and Feedback with Masked Token Transformers in
Massive MIMO Systems [74.52117784544758]
本稿では,CSI行列内の固有周波数領域相関を明らかにするエンコーダデコーダに基づくネットワークを提案する。
エンコーダ・デコーダネットワーク全体がチャネル圧縮に使用される。
提案手法は,共同作業における現状のチャネル推定およびフィードバック技術より優れる。
論文 参考訳(メタデータ) (2023-06-08T06:15:17Z) - MIMO-DBnet: Multi-channel Input and Multiple Outputs DOA-aware
Beamforming Network for Speech Separation [55.533789120204055]
混合信号のみを用いた方向案内音声分離のためのエンドツーエンドビームフォーミングネットワークを提案する。
具体的には,複数チャネルの入力と複数出力アーキテクチャを設計し,各ソースの指向性に基づく埋め込みとビームフォーミング重みを推定する。
論文 参考訳(メタデータ) (2022-12-07T01:52:40Z) - Bandwidth-efficient distributed neural network architectures with
application to body sensor networks [73.02174868813475]
本稿では,分散ニューラルネットワークアーキテクチャを設計するための概念設計手法について述べる。
提案手法により,損失を最小限に抑えつつ,最大20倍の帯域幅削減が可能となることを示す。
本稿では,ウェアラブル脳-コンピュータインタフェースに焦点をあてるが,他のセンサネットワークアプリケーションにも適用できる。
論文 参考訳(メタデータ) (2022-10-14T12:35:32Z) - MFA: TDNN with Multi-scale Frequency-channel Attention for
Text-independent Speaker Verification with Short Utterances [94.70787497137854]
本稿では、畳み込みニューラルネットワークとTDNNからなる新しいデュアルパス設計により、話者を異なるスケールで特徴付けるマルチスケール周波数チャネルアテンション(MFA)を提案する。
我々は,提案したMFAをVoxCelebデータベース上で評価し,提案したMFAを用いたフレームワークが,パラメータや複雑性を低減しつつ,最先端のパフォーマンスを実現することを確認した。
論文 参考訳(メタデータ) (2022-02-03T14:57:05Z) - Multi-Channel End-to-End Neural Diarization with Distributed Microphones [53.99406868339701]
EENDのTransformerエンコーダを,マルチチャネル入力を処理する2種類のエンコーダに置き換える。
また,単一チャンネル記録のみを用いたモデル適応手法を提案する。
論文 参考訳(メタデータ) (2021-10-10T03:24:03Z) - Enhancement of Spatial Clustering-Based Time-Frequency Masks using LSTM
Neural Networks [3.730592618611028]
我々はLSTMを用いて空間クラスタリングに基づく時間周波数マスクを強化する。
複数の単一チャネルLSTM-DNN音声強調器の信号モデリング性能と信号分離性能を両立させる。
カルディ自動音声認識装置の単語誤り率を用いて各システムの出力の可知性を評価する。
論文 参考訳(メタデータ) (2020-12-02T22:29:29Z) - Resource-Efficient Speech Mask Estimation for Multi-Channel Speech
Enhancement [15.361841669377776]
ディープニューラルネットワーク(DNN)に基づくマルチチャンネル音声強調のための資源効率の高い手法を提案する。
特に、低精度DNNを用いて、ノイズの多いマルチチャネルマイクロホン観測から音声マスクを推定する。
2重みの極端な場合と精度の低下により、実行時間とメモリフットプリントの大幅な削減が可能となる。
論文 参考訳(メタデータ) (2020-07-22T14:58:29Z) - Multi-Tones' Phase Coding (MTPC) of Interaural Time Difference by
Spiking Neural Network [68.43026108936029]
雑音の多い実環境下での正確な音像定位のための純粋スパイクニューラルネットワーク(SNN)に基づく計算モデルを提案する。
このアルゴリズムを,マイクロホンアレイを用いたリアルタイムロボットシステムに実装する。
実験の結果, 平均誤差方位は13度であり, 音源定位に対する他の生物学的に妥当なニューロモルフィックアプローチの精度を上回っていることがわかった。
論文 参考訳(メタデータ) (2020-07-07T08:22:56Z) - Neural Speech Separation Using Spatially Distributed Microphones [19.242927805448154]
本稿では,空間分布マイクロホンを用いたニューラルネットワークに基づく音声分離手法を提案する。
従来のマイクアレイの設定とは異なり、マイクの数や空間配置は事前に分かっていない。
音声認識実験の結果,提案手法はベースライン型マルチチャネル音声分離システムよりも有意に優れていた。
論文 参考訳(メタデータ) (2020-04-28T17:16:31Z) - Channel-Attention Dense U-Net for Multichannel Speech Enhancement [21.94418736688929]
我々は、ビームフォーミングを模倣するチャネルアテンション機構をディープアーキテクチャ内に導入する。
我々は,CHiME-3データセットの最先端アプローチに対して,ネットワークの優れた性能を示す。
論文 参考訳(メタデータ) (2020-01-30T19:56:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。