Fugu-MT 論文翻訳(概要): Neural Network-based Virtual Microphone Estimator

論文の概要: Neural Network-based Virtual Microphone Estimator

arxiv url: http://arxiv.org/abs/2101.04315v1
Date: Tue, 12 Jan 2021 06:30:24 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-04 01:31:24.292366
Title: Neural Network-based Virtual Microphone Estimator
Title（参考訳）: ニューラルネットワークを用いた仮想マイクロホン推定器
Authors: Tsubasa Ochiai, Marc Delcroix, Tomohiro Nakatani, Rintaro Ikeshita, Keisuke Kinoshita, Shoko Araki
Abstract要約: ニューラルネットワークを用いた仮想マイクロホン推定器(NN-VME)を提案する。 NN-VMEは、最近の時間領域ニューラルネットワークの正確な推定能力を利用して、仮想マイクロホン信号を時間領域内で直接推定する。 CHiME-4コーパスの実験結果から,提案したNN-VMEは実録音においても高い仮想マイクロホン推定性能が得られることが示された。
参考スコア（独自算出の注目度）: 111.79608275698274
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Developing microphone array technologies for a small number of microphones is important due to the constraints of many devices. One direction to address this situation consists of virtually augmenting the number of microphone signals, e.g., based on several physical model assumptions. However, such assumptions are not necessarily met in realistic conditions. In this paper, as an alternative approach, we propose a neural network-based virtual microphone estimator (NN-VME). The NN-VME estimates virtual microphone signals directly in the time domain, by utilizing the precise estimation capability of the recent time-domain neural networks. We adopt a fully supervised learning framework that uses actual observations at the locations of the virtual microphones at training time. Consequently, the NN-VME can be trained using only multi-channel observations and thus directly on real recordings, avoiding the need for unrealistic physical model-based assumptions. Experiments on the CHiME-4 corpus show that the proposed NN-VME achieves high virtual microphone estimation performance even for real recordings and that a beamformer augmented with the NN-VME improves both the speech enhancement and recognition performance.
Abstract（参考訳）: 少数のマイクロホンのためのマイクロホンアレイ技術の開発は、多くのデバイスに制約があるため重要である。この状況に対処する一つの方向は、例えばいくつかの物理モデル仮定に基づいて、マイク信号の数を事実上増やすことである。しかし、そのような仮定は必ずしも現実的な条件で満たされない。本稿では,ニューラルネットワークを用いた仮想マイクロホン推定器(NN-VME)を提案する。 NN-VMEは、最近の時間領域ニューラルネットワークの正確な推定能力を利用して、仮想マイクロホン信号を時間領域内で直接推定する。訓練時の仮想マイクの位置での実際の観察を利用した教師あり学習フレームワークを採用する。したがって、nn-vmeはマルチチャンネルの観測のみを使用して訓練することができ、実記録を直接行うことができ、非現実的な物理モデルに基づく仮定の必要性を回避できる。提案するnn-vmeは実記録においても高い仮想マイクロホン推定性能を達成し,nn-vmeを付加したビームフォーマによって音声強調と認識性能の両方が向上することを示す。

関連論文リスト

Explicit Context-Driven Neural Acoustic Modeling for High-Fidelity RIR Generation [17.013738637228553]
所与の場所で粗い部屋メッシュを問合せし,局所文脈の明示的な表現として距離分布を抽出するメッシュ注入型ニューラルネットワーク(MiNAF)を提案する。我々のアプローチは、明示的な局所幾何学的特徴を取り入れることで、より正確なRIR予測を生成する上で、ニューラルネットワークをより導出できることを実証している。
論文参考訳（メタデータ） (2025-09-18T17:57:07Z)
Neuromorphic Keyword Spotting with Pulse Density Modulation MEMS Microphones [0.25782420501870285]
キーワードスポッティングタスクには、事前に定義された単語を検出するための継続的オーディオストリーム監視が含まれる。ニューロモルフィックデバイスはこのエネルギー課題に効果的に対処する。マイクロホンとSNNの直接接続を提案する。システムはGoogle Speech Commandデータセットで91.54%の精度を達成した。
論文参考訳（メタデータ） (2024-08-09T16:27:51Z)
A Real-Time Voice Activity Detection Based On Lightweight Neural [4.589472292598182]
音声活動検出(Voice Activity Detection, VAD)は、音声ストリーム中の音声を検出するタスクである。最近のニューラルネットワークベースのVADでは、パフォーマンスの低下がある程度軽減されている。我々は,カジュアルかつ深さ分離可能な1次元畳み込みとGRUを利用するMagicNetという,軽量でリアルタイムなニューラルネットワークを提案する。
論文参考訳（メタデータ） (2024-05-27T03:31:16Z)
A Novel Micro-Doppler Coherence Loss for Deep Learning Radar Applications [1.099532646524593]
本稿では,入力と出力間のマイクロドップラー振動成分の正規化パワーが一致した場合に,マイクロドップラーコヒーレンス損失を最小化する。実データを用いた実験により、導入した損失の応用により、モデルがノイズに対してより弾力性を持つことを示す。
論文参考訳（メタデータ） (2024-04-12T08:11:07Z)
sVAD: A Robust, Low-Power, and Light-Weight Voice Activity Detection with Spiking Neural Networks [51.516451451719654]
スパイキングニューラルネットワーク(SNN)は生物学的に妥当で、電力効率が高いことが知られている。本稿では sVAD と呼ばれる新しい SNN ベースの音声活動検出モデルを提案する。 SincNetと1D畳み込みによる効果的な聴覚特徴表現を提供し、アテンション機構による雑音の堅牢性を向上させる。
論文参考訳（メタデータ） (2024-03-09T02:55:44Z)
Signal Detection in MIMO Systems with Hardware Imperfections: Message Passing on Neural Networks [101.59367762974371]
本稿では,Multi-Input-multiple-output (MIMO)通信システムにおける信号検出について検討する。パイロット信号が限られているディープニューラルネットワーク(DNN)のトレーニングは困難であり、実用化を妨げている。我々は、ユニタリ近似メッセージパッシング(UAMP)アルゴリズムを利用して、効率的なメッセージパッシングに基づくベイズ信号検出器を設計する。
論文参考訳（メタデータ） (2022-10-08T04:32:58Z)
Scene-Agnostic Multi-Microphone Speech Dereverberation [47.735158037490834]
本稿では,数と位置が不明なマイクロホンアレイに対処可能なNNアーキテクチャを提案する。提案手法は,残響対数スペクトルを向上するアーキテクチャを設計するために,集合構造データの深層学習を活用している。
論文参考訳（メタデータ） (2020-10-22T17:13:12Z)
Multi-Tones' Phase Coding (MTPC) of Interaural Time Difference by Spiking Neural Network [68.43026108936029]
雑音の多い実環境下での正確な音像定位のための純粋スパイクニューラルネットワーク(SNN)に基づく計算モデルを提案する。このアルゴリズムを,マイクロホンアレイを用いたリアルタイムロボットシステムに実装する。実験の結果, 平均誤差方位は13度であり, 音源定位に対する他の生物学的に妥当なニューロモルフィックアプローチの精度を上回っていることがわかった。
論文参考訳（メタデータ） (2020-07-07T08:22:56Z)
Deep Speaker Embeddings for Far-Field Speaker Recognition on Short Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文参考訳（メタデータ） (2020-02-14T13:34:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。