論文の概要: End-To-End Optimization of Online Neural Network-supported Two-Stage
Dereverberation for Hearing Devices
- arxiv url: http://arxiv.org/abs/2204.02978v1
- Date: Wed, 6 Apr 2022 11:08:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-08 15:56:38.938317
- Title: End-To-End Optimization of Online Neural Network-supported Two-Stage
Dereverberation for Hearing Devices
- Title(参考訳): オンラインニューラルネットワークを用いた補聴器の終端最適化
- Authors: Jean-Marie Lemercier, Joachim Thiemann, Raphael Koning and Timo
Gerkmann
- Abstract要約: 本稿では,2段階の補聴器オンラインデバーベレーションアルゴリズムについて述べる。
提案した第1段階の残響性能は,訓練されたエンドツーエンドの場合,特に早期から中期の残響率を向上することを示す。
提案システムは,早期反射の低減量を制御し,異なるタイプの補聴器利用者のニーズに適応することができる。
- 参考スコア(独自算出の注目度): 13.49645012479288
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A two-stage online dereverberation algorithm for hearing devices is presented
in this paper. The approach combines a multi-channel multi-frame linear
filtering approach with a single-channel single-frame post-filter. Both
components rely on power spectral density (PSD) estimates provided by deep
neural networks (DNNs). This contribution extends our prior work, which shows
that directly optimizing for a criterion at the output of the multi-channel
linear filtering stage results in a more efficient dereverberation, as compared
to placing the criterion at the output of the DNN to optimize the PSD
estimation. In the present work, we show that the dereverberation performance
of the proposed first stage particularly improves the early-to-mid
reverberation ratio if trained end-to-end. We thus argue that it can be
combined with a post-filtering stage which benefits from the early-to-mid ratio
improvement and is consequently able to efficiently suppress the residual late
reverberation. This proposed two stage procedure is shown to be both very
effective in terms of dereverberation performance and computational demands.
Furthermore, the proposed system can be adapted to the needs of different types
of hearing-device users by controlling the amount of reduction of early
reflections. The proposed system outperforms the previously proposed end-to-end
DNN-supported linear filtering algorithm, as well as other traditional
approaches, based on an evaluation using the noise-free version of the WHAMR!
dataset.
- Abstract(参考訳): 本稿では,聴覚装置に対する2段階のオンライン残響アルゴリズムについて述べる。
このアプローチは、マルチチャネルマルチフレーム線形フィルタリングアプローチとシングルチャネルシングルフレームポストフィルタを組み合わせたものである。
どちらのコンポーネントも、ディープニューラルネットワーク(DNN)が提供するパワースペクトル密度(PSD)の推定に依存している。
この寄与は、DNNの出力に基準を配置してPSD推定を最適化するのと比較して、マルチチャネル線形フィルタリング段階の出力における基準を直接最適化することで、より効率的なデバーベレーションをもたらすことを示す。
本研究は,第一段階の残響性能が,訓練されたエンドツーエンドの残響率を特に向上させることを示す。
したがって, 早期から中期までの比改善の恩恵を受け, 残余残残余残響を効果的に抑制できるポストフィルタステージと組み合わせることが可能である。
提案した2段階の手順は, 残響性能と計算要求の両面において非常に効果的であることが示されている。
さらに, 早期反射の低減量を制御することで, 異なるタイプの聴覚デバイスユーザのニーズに適応できることを示す。
提案システムは、WHAMR!データセットのノイズフリーバージョンを用いた評価に基づいて、これまで提案されていたDNNサポート線形フィルタリングアルゴリズムや、他の従来の手法よりも優れている。
関連論文リスト
- Fast T2T: Optimization Consistency Speeds Up Diffusion-Based Training-to-Testing Solving for Combinatorial Optimization [83.65278205301576]
雑音レベルから与えられたインスタンスの最適解への直接写像を学習し、最小限のショットで高品質な生成を容易にすることを提案する。
これは、サンプル間の差を最小限に抑える最適化一貫性トレーニングプロトコルによって達成される。
The Traveling Salesman Problem (TSP) と Maximal Independent Set (MIS) は、ソリューションの品質と効率の両方に関して、Fast T2Tの優位性を実証している。
論文 参考訳(メタデータ) (2025-02-05T07:13:43Z) - Resampling Filter Design for Multirate Neural Audio Effect Processing [9.149661171430257]
ニューラルネットワークの入力と出力における信号再サンプリングの利用を代替ソリューションとして検討する。
カイザー窓FIRフィルタを組み込んだ半帯域IIRフィルタを用いた2段設計により,従来提案されていたモデル調整手法に類似あるいは良好な結果が得られることを示す。
論文 参考訳(メタデータ) (2025-01-30T16:44:49Z) - Run-Time Adaptation of Neural Beamforming for Robust Speech Dereverberation and Denoising [15.152748065111194]
本稿では,実環境におけるリアルタイム自動音声認識のための音声強調について述べる。
ノイズの多いエコー混合分光器とディープニューラルネットワーク(DNN)からクリーンドライ音声のマスクを推定し、ビームフォーミングに用いる拡張フィルタを算出する。
しかし、このような教師付きアプローチのパフォーマンスは、ミスマッチした条件下で大幅に劣化する。
論文 参考訳(メタデータ) (2024-10-30T08:32:47Z) - Low-rank extended Kalman filtering for online learning of neural
networks from streaming data [71.97861600347959]
非定常データストリームから非線形関数のパラメータを推定するための効率的なオンライン近似ベイズ推定アルゴリズムを提案する。
この方法は拡張カルマンフィルタ (EKF) に基づいているが、新しい低ランク+斜角行列分解法を用いている。
変分推論に基づく手法とは対照的に,本手法は完全に決定論的であり,ステップサイズチューニングを必要としない。
論文 参考訳(メタデータ) (2023-05-31T03:48:49Z) - Simple Pooling Front-ends For Efficient Audio Classification [56.59107110017436]
入力音声特徴量における時間的冗長性を排除することは,効率的な音声分類に有効な方法である可能性が示唆された。
本稿では、単純な非パラメトリックプーリング操作を用いて冗長な情報を削減する単純なプールフロントエンド(SimPFs)のファミリーを提案する。
SimPFは、市販オーディオニューラルネットワークの浮動小数点演算数の半数以上を削減できる。
論文 参考訳(メタデータ) (2022-10-03T14:00:41Z) - Speaker Diarization using Two-pass Leave-One-Out Gaussian PLDA
Clustering of DNN Embeddings [9.826793576487736]
本稿では,クラスタリングと埋め込みを用いた話者ダイアリゼーションのためのシステムの2パスバージョンを提案する。
コールホームコーパスでは,タスク依存パラメータチューニングを使わずに,最初のエラー率を4%以下で達成する。
また,複数のダイアリゼーションタスクに対するロバストな単一ソリューションへの大きな進歩を示す。
論文 参考訳(メタデータ) (2021-04-06T12:52:55Z) - Exploiting Multiple Timescales in Hierarchical Echo State Networks [0.0]
エコー状態ネットワーク(ESN)は、線形出力重みのトレーニングのみを必要とする貯水池コンピューティングの強力な形態である。
ここでは,貯水池を2つの小さな貯水池に分割した階層型esnの時間スケールを考察する。
論文 参考訳(メタデータ) (2021-01-11T22:33:17Z) - Deep Networks for Direction-of-Arrival Estimation in Low SNR [89.45026632977456]
我々は,真の配列多様体行列の変異チャネルデータから学習した畳み込みニューラルネットワーク(CNN)を導入する。
我々は低SNR体制でCNNを訓練し、すべてのSNRでDoAを予測する。
私たちの堅牢なソリューションは、ワイヤレスアレイセンサーから音響マイクロフォンやソナーまで、いくつかの分野に適用できます。
論文 参考訳(メタデータ) (2020-11-17T12:52:18Z) - ADRN: Attention-based Deep Residual Network for Hyperspectral Image
Denoising [52.01041506447195]
ノイズの多いHSIからクリーンなHSIへのマッピングを学習するために,注目に基づくディープ残差ネットワークを提案する。
実験の結果,提案手法は定量的および視覚的評価において最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-03-04T08:36:27Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z) - End-to-End Multi-Task Denoising for joint SDR and PESQ Optimization [43.15288441772729]
ネットワークの騒音は、ノイズの多い音声からマッピングを学習し、それらを直接掃除する。
既存のスキームにはスペクトルと計量ミスマッチの2つの重要な問題がある。
本稿では,SDRとPSSQ最適化を併用した新しいエンドツーエンドデノベーションフレームワークを提案する。
論文 参考訳(メタデータ) (2019-01-26T02:48:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。