論文の概要: Nonlinear Acoustic Echo Cancellation with Deep Learning
- arxiv url: http://arxiv.org/abs/2106.13754v1
- Date: Fri, 25 Jun 2021 16:44:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-28 12:51:34.292715
- Title: Nonlinear Acoustic Echo Cancellation with Deep Learning
- Title(参考訳): ディープラーニングを用いた非線形音響エコーキャンセラ
- Authors: Amir Ivry, Israel Cohen, Baruch Berdugo
- Abstract要約: 本稿では,遠端信号の受信と再生の間に生じる非線形歪みをモデル化するニューラルネットワークアーキテクチャを提案する。
ネットワークは、スピーカ出力とマイク間のエコーパスを追跡する標準適応線形フィルタによって後継される。
このシステムは毎秒500万の浮動小数点演算を消費する1万のパラメータと40Kiloバイトのメモリを必要とする。
- 参考スコア(独自算出の注目度): 13.558688470594676
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a nonlinear acoustic echo cancellation system, which aims to model
the echo path from the far-end signal to the near-end microphone in two parts.
Inspired by the physical behavior of modern hands-free devices, we first
introduce a novel neural network architecture that is specifically designed to
model the nonlinear distortions these devices induce between receiving and
playing the far-end signal. To account for variations between devices, we
construct this network with trainable memory length and nonlinear activation
functions that are not parameterized in advance, but are rather optimized
during the training stage using the training data. Second, the network is
succeeded by a standard adaptive linear filter that constantly tracks the echo
path between the loudspeaker output and the microphone. During training, the
network and filter are jointly optimized to learn the network parameters. This
system requires 17 thousand parameters that consume 500 Million floating-point
operations per second and 40 Kilo-bytes of memory. It also satisfies hands-free
communication timing requirements on a standard neural processor, which renders
it adequate for embedding on hands-free communication devices. Using 280 hours
of real and synthetic data, experiments show advantageous performance compared
to competing methods.
- Abstract(参考訳): 遠端信号から近端マイクロホンへのエコーパスを2つの部分でモデル化することを目的とした非線形音響エコーキャンセリングシステムを提案する。
現代のハンズフリーデバイスの物理的挙動に触発されて、我々はまず、これらのデバイスが極端信号の受信と再生の間に引き起こす非線形歪みをモデル化する、新しいニューラルネットワークアーキテクチャを導入する。
デバイス間のばらつきを考慮し,事前パラメータ化されていないが,トレーニングデータを用いたトレーニング段階で最適化された,トレーニング可能なメモリ長と非線形アクティベーション関数を備えたネットワークを構築する。
第2に、スピーカ出力とマイクの間のエコーパスを常に追跡する標準適応線形フィルタによってネットワークを継承する。
トレーニング中、ネットワークとフィルタはネットワークパラメータを学習するために協調的に最適化される。
このシステムは毎秒500万の浮動小数点演算を消費する1万のパラメータと40Kiloバイトのメモリを必要とする。
また、ハンズフリーの通信タイミング要件を標準のニューラルプロセッサで満たし、ハンズフリーの通信デバイスに組み込むのに適している。
280時間の実データと合成データを用いて、実験は競合する手法と比較して有利な性能を示す。
関連論文リスト
- Rendering Wireless Environments Useful for Gradient Estimators: A Zero-Order Stochastic Federated Learning Method [14.986031916712108]
クロスデバイスフェデレーション学習(FL)は成長する機械学習フレームワークであり、複数のエッジデバイスが協力して、生データを公開せずにモデルをトレーニングする。
学習アルゴリズム自体において、その影響を解析する代わりに、無線チャネルを利用する方法を示す。
論文 参考訳(メタデータ) (2024-01-30T21:46:09Z) - Collaborative Learning with a Drone Orchestrator [79.75113006257872]
インテリジェントな無線デバイス群は、ドローンの助けを借りて共有ニューラルネットワークモデルを訓練する。
提案したフレームワークは,トレーニングの大幅な高速化を実現し,ドローンホバリング時間の平均24%と87%の削減を実現している。
論文 参考訳(メタデータ) (2023-03-03T23:46:25Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z) - Training a Deep Neural Network via Policy Gradients for Blind Source
Separation in Polyphonic Music Recordings [1.933681537640272]
音響信号における楽器の音の盲点分離法を提案する。
パラメトリックモデルを用いて個々の音色を記述し、辞書を訓練し、高調波の相対振幅を捉える。
提案アルゴリズムは,様々な音声サンプルに対して,特に低干渉で高品質な結果が得られる。
論文 参考訳(メタデータ) (2021-07-09T06:17:04Z) - A Photonic-Circuits-Inspired Compact Network: Toward Real-Time Wireless
Signal Classification at the Edge [3.841495731646297]
大規模な機械学習モデルでは、レイテンシに敏感な下流タスクのためにエッジデバイス上で実装することが難しくなる可能性がある。
無線通信システムでは、ミリ秒以下のスケールでのMLデータ処理により、リアルタイムなネットワーク監視が可能となる。
本稿では,フォトニック・ハードウエアにインスパイアされたリカレントニューラルネットワークモデルからなる,コンパクトなディープ・ネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-25T19:55:41Z) - High-Fidelity and Low-Latency Universal Neural Vocoder based on
Multiband WaveRNN with Data-Driven Linear Prediction for Discrete Waveform
Modeling [38.828260316517536]
本稿では、離散波形モデリング(MWDLP)のためのデータ駆動線形予測を用いたマルチバンドWaveRNNに基づく新しいユニバーサルニューラルネットワークボコーダフレームワークを提案する。
提案したMWDLPフレームワークは、クリーンでノイズの多い残響条件を含む300人の話者のトレーニングデータに対して、見知らぬ話者や/または言語に対して高忠実な合成音声を生成することを示す。
論文 参考訳(メタデータ) (2021-05-20T16:02:45Z) - Supervised training of spiking neural networks for robust deployment on
mixed-signal neuromorphic processors [2.6949002029513167]
混合信号アナログ/デジタル電子回路はスパイキングニューロンやシナプスを非常に高いエネルギー効率でエミュレートすることができる。
ミスマッチは、同一構成ニューロンとシナプスの効果的なパラメータの違いとして表現される。
ミスマッチに対する堅牢性や,その他の一般的なノイズ源を最大化することで,この課題に対処する,教師付き学習アプローチを提案する。
論文 参考訳(メタデータ) (2021-02-12T09:20:49Z) - Fast accuracy estimation of deep learning based multi-class musical
source separation [79.10962538141445]
本稿では,ニューラルネットワークのトレーニングやチューニングを行うことなく,任意のデータセットにおける楽器の分離性を評価する手法を提案する。
理想的な比マスクを持つオラクルの原理に基づいて、我々の手法は最先端のディープラーニング手法の分離性能を推定するための優れたプロキシである。
論文 参考訳(メタデータ) (2020-10-19T13:05:08Z) - Reservoir Memory Machines as Neural Computers [70.5993855765376]
微分可能なニューラルネットワークは、干渉することなく明示的なメモリで人工ニューラルネットワークを拡張する。
我々は、非常に効率的に訓練できるモデルを用いて、微分可能なニューラルネットワークの計算能力を実現する。
論文 参考訳(メタデータ) (2020-09-14T12:01:30Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。