論文の概要: End-To-End Optimization of Online Neural Network-supported Two-Stage
Dereverberation for Hearing Devices
- arxiv url: http://arxiv.org/abs/2204.02978v1
- Date: Wed, 6 Apr 2022 11:08:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-08 15:56:38.938317
- Title: End-To-End Optimization of Online Neural Network-supported Two-Stage
Dereverberation for Hearing Devices
- Title(参考訳): オンラインニューラルネットワークを用いた補聴器の終端最適化
- Authors: Jean-Marie Lemercier, Joachim Thiemann, Raphael Koning and Timo
Gerkmann
- Abstract要約: 本稿では,2段階の補聴器オンラインデバーベレーションアルゴリズムについて述べる。
提案した第1段階の残響性能は,訓練されたエンドツーエンドの場合,特に早期から中期の残響率を向上することを示す。
提案システムは,早期反射の低減量を制御し,異なるタイプの補聴器利用者のニーズに適応することができる。
- 参考スコア(独自算出の注目度): 13.49645012479288
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A two-stage online dereverberation algorithm for hearing devices is presented
in this paper. The approach combines a multi-channel multi-frame linear
filtering approach with a single-channel single-frame post-filter. Both
components rely on power spectral density (PSD) estimates provided by deep
neural networks (DNNs). This contribution extends our prior work, which shows
that directly optimizing for a criterion at the output of the multi-channel
linear filtering stage results in a more efficient dereverberation, as compared
to placing the criterion at the output of the DNN to optimize the PSD
estimation. In the present work, we show that the dereverberation performance
of the proposed first stage particularly improves the early-to-mid
reverberation ratio if trained end-to-end. We thus argue that it can be
combined with a post-filtering stage which benefits from the early-to-mid ratio
improvement and is consequently able to efficiently suppress the residual late
reverberation. This proposed two stage procedure is shown to be both very
effective in terms of dereverberation performance and computational demands.
Furthermore, the proposed system can be adapted to the needs of different types
of hearing-device users by controlling the amount of reduction of early
reflections. The proposed system outperforms the previously proposed end-to-end
DNN-supported linear filtering algorithm, as well as other traditional
approaches, based on an evaluation using the noise-free version of the WHAMR!
dataset.
- Abstract(参考訳): 本稿では,聴覚装置に対する2段階のオンライン残響アルゴリズムについて述べる。
このアプローチは、マルチチャネルマルチフレーム線形フィルタリングアプローチとシングルチャネルシングルフレームポストフィルタを組み合わせたものである。
どちらのコンポーネントも、ディープニューラルネットワーク(DNN)が提供するパワースペクトル密度(PSD)の推定に依存している。
この寄与は、DNNの出力に基準を配置してPSD推定を最適化するのと比較して、マルチチャネル線形フィルタリング段階の出力における基準を直接最適化することで、より効率的なデバーベレーションをもたらすことを示す。
本研究は,第一段階の残響性能が,訓練されたエンドツーエンドの残響率を特に向上させることを示す。
したがって, 早期から中期までの比改善の恩恵を受け, 残余残残余残響を効果的に抑制できるポストフィルタステージと組み合わせることが可能である。
提案した2段階の手順は, 残響性能と計算要求の両面において非常に効果的であることが示されている。
さらに, 早期反射の低減量を制御することで, 異なるタイプの聴覚デバイスユーザのニーズに適応できることを示す。
提案システムは、WHAMR!データセットのノイズフリーバージョンを用いた評価に基づいて、これまで提案されていたDNNサポート線形フィルタリングアルゴリズムや、他の従来の手法よりも優れている。
関連論文リスト
- Run-Time Adaptation of Neural Beamforming for Robust Speech Dereverberation and Denoising [15.152748065111194]
本稿では,実環境におけるリアルタイム自動音声認識のための音声強調について述べる。
ノイズの多いエコー混合分光器とディープニューラルネットワーク(DNN)からクリーンドライ音声のマスクを推定し、ビームフォーミングに用いる拡張フィルタを算出する。
しかし、このような教師付きアプローチのパフォーマンスは、ミスマッチした条件下で大幅に劣化する。
論文 参考訳(メタデータ) (2024-10-30T08:32:47Z) - Low-rank extended Kalman filtering for online learning of neural
networks from streaming data [71.97861600347959]
非定常データストリームから非線形関数のパラメータを推定するための効率的なオンライン近似ベイズ推定アルゴリズムを提案する。
この方法は拡張カルマンフィルタ (EKF) に基づいているが、新しい低ランク+斜角行列分解法を用いている。
変分推論に基づく手法とは対照的に,本手法は完全に決定論的であり,ステップサイズチューニングを必要としない。
論文 参考訳(メタデータ) (2023-05-31T03:48:49Z) - Simple Pooling Front-ends For Efficient Audio Classification [56.59107110017436]
入力音声特徴量における時間的冗長性を排除することは,効率的な音声分類に有効な方法である可能性が示唆された。
本稿では、単純な非パラメトリックプーリング操作を用いて冗長な情報を削減する単純なプールフロントエンド(SimPFs)のファミリーを提案する。
SimPFは、市販オーディオニューラルネットワークの浮動小数点演算数の半数以上を削減できる。
論文 参考訳(メタデータ) (2022-10-03T14:00:41Z) - NerfingMVS: Guided Optimization of Neural Radiance Fields for Indoor
Multi-view Stereo [97.07453889070574]
本稿では,従来のSfM再構成と学習に基づく先行手法を併用した多視点深度推定手法を提案する。
提案手法は室内シーンにおける最先端手法を著しく上回ることを示す。
論文 参考訳(メタデータ) (2021-09-02T17:54:31Z) - Neural Calibration for Scalable Beamforming in FDD Massive MIMO with
Implicit Channel Estimation [10.775558382613077]
チャネル推定とビームフォーミングは、周波数分割二重化(FDD)大規模マルチインプット多重出力(MIMO)システムにおいて重要な役割を果たす。
受信したアップリンクパイロットに応じて,基地局のビームフォーマを直接最適化する深層学習方式を提案する。
エンド・ツー・エンドの設計のスケーラビリティを向上させるために,ニューラルキャリブレーション法を提案する。
論文 参考訳(メタデータ) (2021-08-03T14:26:14Z) - Speaker Diarization using Two-pass Leave-One-Out Gaussian PLDA
Clustering of DNN Embeddings [9.826793576487736]
本稿では,クラスタリングと埋め込みを用いた話者ダイアリゼーションのためのシステムの2パスバージョンを提案する。
コールホームコーパスでは,タスク依存パラメータチューニングを使わずに,最初のエラー率を4%以下で達成する。
また,複数のダイアリゼーションタスクに対するロバストな単一ソリューションへの大きな進歩を示す。
論文 参考訳(メタデータ) (2021-04-06T12:52:55Z) - Exploiting Multiple Timescales in Hierarchical Echo State Networks [0.0]
エコー状態ネットワーク(ESN)は、線形出力重みのトレーニングのみを必要とする貯水池コンピューティングの強力な形態である。
ここでは,貯水池を2つの小さな貯水池に分割した階層型esnの時間スケールを考察する。
論文 参考訳(メタデータ) (2021-01-11T22:33:17Z) - Deep Networks for Direction-of-Arrival Estimation in Low SNR [89.45026632977456]
我々は,真の配列多様体行列の変異チャネルデータから学習した畳み込みニューラルネットワーク(CNN)を導入する。
我々は低SNR体制でCNNを訓練し、すべてのSNRでDoAを予測する。
私たちの堅牢なソリューションは、ワイヤレスアレイセンサーから音響マイクロフォンやソナーまで、いくつかの分野に適用できます。
論文 参考訳(メタデータ) (2020-11-17T12:52:18Z) - ADRN: Attention-based Deep Residual Network for Hyperspectral Image
Denoising [52.01041506447195]
ノイズの多いHSIからクリーンなHSIへのマッピングを学習するために,注目に基づくディープ残差ネットワークを提案する。
実験の結果,提案手法は定量的および視覚的評価において最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-03-04T08:36:27Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z) - End-to-End Multi-Task Denoising for joint SDR and PESQ Optimization [43.15288441772729]
ネットワークの騒音は、ノイズの多い音声からマッピングを学習し、それらを直接掃除する。
既存のスキームにはスペクトルと計量ミスマッチの2つの重要な問題がある。
本稿では,SDRとPSSQ最適化を併用した新しいエンドツーエンドデノベーションフレームワークを提案する。
論文 参考訳(メタデータ) (2019-01-26T02:48:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。