論文の概要: Scene-Agnostic Multi-Microphone Speech Dereverberation
- arxiv url: http://arxiv.org/abs/2010.11875v2
- Date: Thu, 10 Jun 2021 18:17:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 08:36:54.722592
- Title: Scene-Agnostic Multi-Microphone Speech Dereverberation
- Title(参考訳): シーン非依存型マルチマイクロホン音声の残響化
- Authors: Yochai Yemini, Ethan Fetaya, Haggai Maron and Sharon Gannot
- Abstract要約: 本稿では,数と位置が不明なマイクロホンアレイに対処可能なNNアーキテクチャを提案する。
提案手法は,残響対数スペクトルを向上するアーキテクチャを設計するために,集合構造データの深層学習を活用している。
- 参考スコア(独自算出の注目度): 47.735158037490834
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural networks (NNs) have been widely applied in speech processing tasks,
and, in particular, those employing microphone arrays. Nevertheless, most
existing NN architectures can only deal with fixed and position-specific
microphone arrays. In this paper, we present an NN architecture that can cope
with microphone arrays whose number and positions of the microphones are
unknown, and demonstrate its applicability in the speech dereverberation task.
To this end, our approach harnesses recent advances in deep learning on
set-structured data to design an architecture that enhances the reverberant
log-spectrum. We use noisy and noiseless versions of a simulated reverberant
dataset to test the proposed architecture. Our experiments on the noisy data
show that the proposed scene-agnostic setup outperforms a powerful scene-aware
framework, sometimes even with fewer microphones. With the noiseless dataset we
show that, in most cases, our method outperforms the position-aware network as
well as the state-of-the-art weighted linear prediction error (WPE) algorithm.
- Abstract(参考訳): ニューラルネットワーク(nns)は、音声処理タスク、特にマイクロホンアレイを使用するタスクに広く適用されてきた。
しかしながら、既存のNNアーキテクチャのほとんどは固定および位置固有のマイクロホンアレイにしか対応できない。
本稿では,マイクロホンの数と位置が不明なマイクロホンアレイに対処可能なNNアーキテクチャを提案する。
この目的のために,我々は,集合構造データのディープラーニングの最近の進歩を利用して,残響的ログスペクトラムを増大させるアーキテクチャを設計する。
提案したアーキテクチャをテストするために、シミュレートされた残響データセットのノイズやノイズのないバージョンを使用します。
ノイズデータを用いた実験により,提案手法は,マイクロホンの少ないシーン認識フレームワークよりも優れた性能を示した。
ノイズのないデータセットでは、ほとんどの場合、我々の手法は位置認識ネットワークや最先端の重み付き線形予測誤差(WPE)アルゴリズムよりも優れています。
関連論文リスト
- A unified multichannel far-field speech recognition system: combining
neural beamforming with attention based end-to-end model [14.795953417531907]
本稿では,ニューラルビームフォーミングとトランスフォーマーをベースとしたリステン,スペル,アトンド(LAS)音声認識システムを組み合わせた多チャンネル遠距離音声認識システムを提案する。
提案手法は, 強いベースラインに比べて19.26%向上した。
論文 参考訳(メタデータ) (2024-01-05T07:11:13Z) - A Study of Designing Compact Audio-Visual Wake Word Spotting System
Based on Iterative Fine-Tuning in Neural Network Pruning [57.28467469709369]
視覚情報を利用した小型音声覚醒単語スポッティング(WWS)システムの設計について検討する。
繰り返し微調整方式(LTH-IF)で抽選券仮説を通したニューラルネットワークプルーニング戦略を導入する。
提案システムでは,ノイズ条件の異なる単一モード(オーディオのみ,ビデオのみ)システムに対して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-17T08:26:25Z) - Voice Activity Detection for Transient Noisy Environment Based on
Diffusion Nets [13.558688470594674]
過渡音と定常音の音響環境における音声活動検出について検討する。
音声フレームと非音声音声フレームの空間パターンを独立に学習し,その基礎となる幾何学的構造を学習する。
ディープニューラルネットワークは、音声フレームと非音声フレームを分離するように訓練される。
論文 参考訳(メタデータ) (2021-06-25T17:05:26Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z) - Neural Network-based Virtual Microphone Estimator [111.79608275698274]
ニューラルネットワークを用いた仮想マイクロホン推定器(NN-VME)を提案する。
NN-VMEは、最近の時間領域ニューラルネットワークの正確な推定能力を利用して、仮想マイクロホン信号を時間領域内で直接推定する。
CHiME-4コーパスの実験結果から,提案したNN-VMEは実録音においても高い仮想マイクロホン推定性能が得られることが示された。
論文 参考訳(メタデータ) (2021-01-12T06:30:24Z) - Data-Efficient Framework for Real-world Multiple Sound Source 2D
Localization [7.564344795030588]
実データからのラベルを必要とせずにローカリゼーション性能を向上させるための新しいアンサンブル判別法を提案する。
これにより、特定のマイクロフォンアレイレイアウトのデータでモデルをトレーニングし、推論中に見つからないレイアウトに最適化することができる。
論文 参考訳(メタデータ) (2020-12-10T09:22:52Z) - Multi-Tones' Phase Coding (MTPC) of Interaural Time Difference by
Spiking Neural Network [68.43026108936029]
雑音の多い実環境下での正確な音像定位のための純粋スパイクニューラルネットワーク(SNN)に基づく計算モデルを提案する。
このアルゴリズムを,マイクロホンアレイを用いたリアルタイムロボットシステムに実装する。
実験の結果, 平均誤差方位は13度であり, 音源定位に対する他の生物学的に妥当なニューロモルフィックアプローチの精度を上回っていることがわかった。
論文 参考訳(メタデータ) (2020-07-07T08:22:56Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。