論文の概要: Neural Network-based Virtual Microphone Estimator
- arxiv url: http://arxiv.org/abs/2101.04315v1
- Date: Tue, 12 Jan 2021 06:30:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-04 01:31:24.292366
- Title: Neural Network-based Virtual Microphone Estimator
- Title(参考訳): ニューラルネットワークを用いた仮想マイクロホン推定器
- Authors: Tsubasa Ochiai, Marc Delcroix, Tomohiro Nakatani, Rintaro Ikeshita,
Keisuke Kinoshita, Shoko Araki
- Abstract要約: ニューラルネットワークを用いた仮想マイクロホン推定器(NN-VME)を提案する。
NN-VMEは、最近の時間領域ニューラルネットワークの正確な推定能力を利用して、仮想マイクロホン信号を時間領域内で直接推定する。
CHiME-4コーパスの実験結果から,提案したNN-VMEは実録音においても高い仮想マイクロホン推定性能が得られることが示された。
- 参考スコア(独自算出の注目度): 111.79608275698274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Developing microphone array technologies for a small number of microphones is
important due to the constraints of many devices. One direction to address this
situation consists of virtually augmenting the number of microphone signals,
e.g., based on several physical model assumptions. However, such assumptions
are not necessarily met in realistic conditions. In this paper, as an
alternative approach, we propose a neural network-based virtual microphone
estimator (NN-VME). The NN-VME estimates virtual microphone signals directly in
the time domain, by utilizing the precise estimation capability of the recent
time-domain neural networks. We adopt a fully supervised learning framework
that uses actual observations at the locations of the virtual microphones at
training time. Consequently, the NN-VME can be trained using only multi-channel
observations and thus directly on real recordings, avoiding the need for
unrealistic physical model-based assumptions. Experiments on the CHiME-4 corpus
show that the proposed NN-VME achieves high virtual microphone estimation
performance even for real recordings and that a beamformer augmented with the
NN-VME improves both the speech enhancement and recognition performance.
- Abstract(参考訳): 少数のマイクロホンのためのマイクロホンアレイ技術の開発は、多くのデバイスに制約があるため重要である。
この状況に対処する一つの方向は、例えばいくつかの物理モデル仮定に基づいて、マイク信号の数を事実上増やすことである。
しかし、そのような仮定は必ずしも現実的な条件で満たされない。
本稿では,ニューラルネットワークを用いた仮想マイクロホン推定器(NN-VME)を提案する。
NN-VMEは、最近の時間領域ニューラルネットワークの正確な推定能力を利用して、仮想マイクロホン信号を時間領域内で直接推定する。
訓練時の仮想マイクの位置での実際の観察を利用した教師あり学習フレームワークを採用する。
したがって、nn-vmeはマルチチャンネルの観測のみを使用して訓練することができ、実記録を直接行うことができ、非現実的な物理モデルに基づく仮定の必要性を回避できる。
提案するnn-vmeは実記録においても高い仮想マイクロホン推定性能を達成し,nn-vmeを付加したビームフォーマによって音声強調と認識性能の両方が向上することを示す。
関連論文リスト
- sVAD: A Robust, Low-Power, and Light-Weight Voice Activity Detection
with Spiking Neural Networks [51.516451451719654]
スパイキングニューラルネットワーク(SNN)は生物学的に妥当で、電力効率が高いことが知られている。
本稿では sVAD と呼ばれる新しい SNN ベースの音声活動検出モデルを提案する。
SincNetと1D畳み込みによる効果的な聴覚特徴表現を提供し、アテンション機構による雑音の堅牢性を向上させる。
論文 参考訳(メタデータ) (2024-03-09T02:55:44Z) - Linear Combination of Exponential Moving Averages for Wireless Channel
Prediction [2.34863357088666]
本研究では,指数移動平均(EMA)に基づく予測モデルについて検討した。
EMA線形結合(ELC)と呼ばれる新しいモデルを導入し、説明し、実験的に評価した。
論文 参考訳(メタデータ) (2023-12-13T07:44:05Z) - Signal Detection in MIMO Systems with Hardware Imperfections: Message
Passing on Neural Networks [101.59367762974371]
本稿では,Multi-Input-multiple-output (MIMO)通信システムにおける信号検出について検討する。
パイロット信号が限られているディープニューラルネットワーク(DNN)のトレーニングは困難であり、実用化を妨げている。
我々は、ユニタリ近似メッセージパッシング(UAMP)アルゴリズムを利用して、効率的なメッセージパッシングに基づくベイズ信号検出器を設計する。
論文 参考訳(メタデータ) (2022-10-08T04:32:58Z) - Data-Enhanced Variational Monte Carlo Simulations for Rydberg Atom
Arrays [0.3425341633647624]
ライドバーグ原子配列(Rydberg atom array)は、様々な量子状態において相互作用する量子ビット系を準備できるプログラム可能な量子シミュレータである。
本稿では、たとえ少量のデータであっても、現在のRNNの事前学習が、その後の波形関数の変動最適化の収束時間を著しく短縮することを示す。
これは、実験量子シミュレーターで準備された状態から得られるあらゆる測定値が、神経ネットワークベースのVMC戦略に重要な価値をもたらすことを示唆している。
論文 参考訳(メタデータ) (2022-03-09T19:00:04Z) - U-Net-Based Surrogate Model For Evaluation of Microfluidic Channels [0.0]
本研究では,U-Net畳み込みニューラルネットワークをサーロゲートモデルとして,速度と圧力場の予測に用いることを実証する。
どちらのアプリケーションでも1%未満の予測テスト誤差が示されており、これが実際に実行可能な方法であることを示唆している。
論文 参考訳(メタデータ) (2021-05-11T16:27:58Z) - Scene-Agnostic Multi-Microphone Speech Dereverberation [47.735158037490834]
本稿では,数と位置が不明なマイクロホンアレイに対処可能なNNアーキテクチャを提案する。
提案手法は,残響対数スペクトルを向上するアーキテクチャを設計するために,集合構造データの深層学習を活用している。
論文 参考訳(メタデータ) (2020-10-22T17:13:12Z) - Multi-Tones' Phase Coding (MTPC) of Interaural Time Difference by
Spiking Neural Network [68.43026108936029]
雑音の多い実環境下での正確な音像定位のための純粋スパイクニューラルネットワーク(SNN)に基づく計算モデルを提案する。
このアルゴリズムを,マイクロホンアレイを用いたリアルタイムロボットシステムに実装する。
実験の結果, 平均誤差方位は13度であり, 音源定位に対する他の生物学的に妥当なニューロモルフィックアプローチの精度を上回っていることがわかった。
論文 参考訳(メタデータ) (2020-07-07T08:22:56Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。