論文の概要: Neural Network-based Virtual Microphone Estimator
- arxiv url: http://arxiv.org/abs/2101.04315v1
- Date: Tue, 12 Jan 2021 06:30:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-04 01:31:24.292366
- Title: Neural Network-based Virtual Microphone Estimator
- Title(参考訳): ニューラルネットワークを用いた仮想マイクロホン推定器
- Authors: Tsubasa Ochiai, Marc Delcroix, Tomohiro Nakatani, Rintaro Ikeshita,
Keisuke Kinoshita, Shoko Araki
- Abstract要約: ニューラルネットワークを用いた仮想マイクロホン推定器(NN-VME)を提案する。
NN-VMEは、最近の時間領域ニューラルネットワークの正確な推定能力を利用して、仮想マイクロホン信号を時間領域内で直接推定する。
CHiME-4コーパスの実験結果から,提案したNN-VMEは実録音においても高い仮想マイクロホン推定性能が得られることが示された。
- 参考スコア(独自算出の注目度): 111.79608275698274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Developing microphone array technologies for a small number of microphones is
important due to the constraints of many devices. One direction to address this
situation consists of virtually augmenting the number of microphone signals,
e.g., based on several physical model assumptions. However, such assumptions
are not necessarily met in realistic conditions. In this paper, as an
alternative approach, we propose a neural network-based virtual microphone
estimator (NN-VME). The NN-VME estimates virtual microphone signals directly in
the time domain, by utilizing the precise estimation capability of the recent
time-domain neural networks. We adopt a fully supervised learning framework
that uses actual observations at the locations of the virtual microphones at
training time. Consequently, the NN-VME can be trained using only multi-channel
observations and thus directly on real recordings, avoiding the need for
unrealistic physical model-based assumptions. Experiments on the CHiME-4 corpus
show that the proposed NN-VME achieves high virtual microphone estimation
performance even for real recordings and that a beamformer augmented with the
NN-VME improves both the speech enhancement and recognition performance.
- Abstract(参考訳): 少数のマイクロホンのためのマイクロホンアレイ技術の開発は、多くのデバイスに制約があるため重要である。
この状況に対処する一つの方向は、例えばいくつかの物理モデル仮定に基づいて、マイク信号の数を事実上増やすことである。
しかし、そのような仮定は必ずしも現実的な条件で満たされない。
本稿では,ニューラルネットワークを用いた仮想マイクロホン推定器(NN-VME)を提案する。
NN-VMEは、最近の時間領域ニューラルネットワークの正確な推定能力を利用して、仮想マイクロホン信号を時間領域内で直接推定する。
訓練時の仮想マイクの位置での実際の観察を利用した教師あり学習フレームワークを採用する。
したがって、nn-vmeはマルチチャンネルの観測のみを使用して訓練することができ、実記録を直接行うことができ、非現実的な物理モデルに基づく仮定の必要性を回避できる。
提案するnn-vmeは実記録においても高い仮想マイクロホン推定性能を達成し,nn-vmeを付加したビームフォーマによって音声強調と認識性能の両方が向上することを示す。
関連論文リスト
- Neuromorphic Keyword Spotting with Pulse Density Modulation MEMS Microphones [0.25782420501870285]
キーワードスポッティングタスクには、事前に定義された単語を検出するための継続的オーディオストリーム監視が含まれる。
ニューロモルフィックデバイスはこのエネルギー課題に効果的に対処する。
マイクロホンとSNNの直接接続を提案する。
システムはGoogle Speech Commandデータセットで91.54%の精度を達成した。
論文 参考訳(メタデータ) (2024-08-09T16:27:51Z) - A Real-Time Voice Activity Detection Based On Lightweight Neural [4.589472292598182]
音声活動検出(Voice Activity Detection, VAD)は、音声ストリーム中の音声を検出するタスクである。
最近のニューラルネットワークベースのVADでは、パフォーマンスの低下がある程度軽減されている。
我々は,カジュアルかつ深さ分離可能な1次元畳み込みとGRUを利用するMagicNetという,軽量でリアルタイムなニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2024-05-27T03:31:16Z) - A Novel Micro-Doppler Coherence Loss for Deep Learning Radar Applications [1.099532646524593]
本稿では,入力と出力間のマイクロドップラー振動成分の正規化パワーが一致した場合に,マイクロドップラーコヒーレンス損失を最小化する。
実データを用いた実験により、導入した損失の応用により、モデルがノイズに対してより弾力性を持つことを示す。
論文 参考訳(メタデータ) (2024-04-12T08:11:07Z) - sVAD: A Robust, Low-Power, and Light-Weight Voice Activity Detection
with Spiking Neural Networks [51.516451451719654]
スパイキングニューラルネットワーク(SNN)は生物学的に妥当で、電力効率が高いことが知られている。
本稿では sVAD と呼ばれる新しい SNN ベースの音声活動検出モデルを提案する。
SincNetと1D畳み込みによる効果的な聴覚特徴表現を提供し、アテンション機構による雑音の堅牢性を向上させる。
論文 参考訳(メタデータ) (2024-03-09T02:55:44Z) - Signal Detection in MIMO Systems with Hardware Imperfections: Message
Passing on Neural Networks [101.59367762974371]
本稿では,Multi-Input-multiple-output (MIMO)通信システムにおける信号検出について検討する。
パイロット信号が限られているディープニューラルネットワーク(DNN)のトレーニングは困難であり、実用化を妨げている。
我々は、ユニタリ近似メッセージパッシング(UAMP)アルゴリズムを利用して、効率的なメッセージパッシングに基づくベイズ信号検出器を設計する。
論文 参考訳(メタデータ) (2022-10-08T04:32:58Z) - Scene-Agnostic Multi-Microphone Speech Dereverberation [47.735158037490834]
本稿では,数と位置が不明なマイクロホンアレイに対処可能なNNアーキテクチャを提案する。
提案手法は,残響対数スペクトルを向上するアーキテクチャを設計するために,集合構造データの深層学習を活用している。
論文 参考訳(メタデータ) (2020-10-22T17:13:12Z) - Multi-Tones' Phase Coding (MTPC) of Interaural Time Difference by
Spiking Neural Network [68.43026108936029]
雑音の多い実環境下での正確な音像定位のための純粋スパイクニューラルネットワーク(SNN)に基づく計算モデルを提案する。
このアルゴリズムを,マイクロホンアレイを用いたリアルタイムロボットシステムに実装する。
実験の結果, 平均誤差方位は13度であり, 音源定位に対する他の生物学的に妥当なニューロモルフィックアプローチの精度を上回っていることがわかった。
論文 参考訳(メタデータ) (2020-07-07T08:22:56Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。