Fugu-MT 論文翻訳(概要): End-To-End Optimization of Online Neural Network-supported Two-Stage Dereverberation for Hearing Devices

論文の概要: End-To-End Optimization of Online Neural Network-supported Two-Stage Dereverberation for Hearing Devices

arxiv url: http://arxiv.org/abs/2204.02978v1
Date: Wed, 6 Apr 2022 11:08:28 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-08 15:56:38.938317
Title: End-To-End Optimization of Online Neural Network-supported Two-Stage Dereverberation for Hearing Devices
Title（参考訳）: オンラインニューラルネットワークを用いた補聴器の終端最適化
Authors: Jean-Marie Lemercier, Joachim Thiemann, Raphael Koning and Timo Gerkmann
Abstract要約: 本稿では,2段階の補聴器オンラインデバーベレーションアルゴリズムについて述べる。提案した第1段階の残響性能は,訓練されたエンドツーエンドの場合,特に早期から中期の残響率を向上することを示す。提案システムは,早期反射の低減量を制御し,異なるタイプの補聴器利用者のニーズに適応することができる。
参考スコア（独自算出の注目度）: 13.49645012479288
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A two-stage online dereverberation algorithm for hearing devices is presented in this paper. The approach combines a multi-channel multi-frame linear filtering approach with a single-channel single-frame post-filter. Both components rely on power spectral density (PSD) estimates provided by deep neural networks (DNNs). This contribution extends our prior work, which shows that directly optimizing for a criterion at the output of the multi-channel linear filtering stage results in a more efficient dereverberation, as compared to placing the criterion at the output of the DNN to optimize the PSD estimation. In the present work, we show that the dereverberation performance of the proposed first stage particularly improves the early-to-mid reverberation ratio if trained end-to-end. We thus argue that it can be combined with a post-filtering stage which benefits from the early-to-mid ratio improvement and is consequently able to efficiently suppress the residual late reverberation. This proposed two stage procedure is shown to be both very effective in terms of dereverberation performance and computational demands. Furthermore, the proposed system can be adapted to the needs of different types of hearing-device users by controlling the amount of reduction of early reflections. The proposed system outperforms the previously proposed end-to-end DNN-supported linear filtering algorithm, as well as other traditional approaches, based on an evaluation using the noise-free version of the WHAMR! dataset.
Abstract（参考訳）: 本稿では,聴覚装置に対する2段階のオンライン残響アルゴリズムについて述べる。このアプローチは、マルチチャネルマルチフレーム線形フィルタリングアプローチとシングルチャネルシングルフレームポストフィルタを組み合わせたものである。どちらのコンポーネントも、ディープニューラルネットワーク(DNN)が提供するパワースペクトル密度(PSD)の推定に依存している。この寄与は、DNNの出力に基準を配置してPSD推定を最適化するのと比較して、マルチチャネル線形フィルタリング段階の出力における基準を直接最適化することで、より効率的なデバーベレーションをもたらすことを示す。本研究は,第一段階の残響性能が,訓練されたエンドツーエンドの残響率を特に向上させることを示す。したがって, 早期から中期までの比改善の恩恵を受け, 残余残残余残響を効果的に抑制できるポストフィルタステージと組み合わせることが可能である。提案した2段階の手順は, 残響性能と計算要求の両面において非常に効果的であることが示されている。さらに, 早期反射の低減量を制御することで, 異なるタイプの聴覚デバイスユーザのニーズに適応できることを示す。提案システムは、WHAMR!データセットのノイズフリーバージョンを用いた評価に基づいて、これまで提案されていたDNNサポート線形フィルタリングアルゴリズムや、他の従来の手法よりも優れている。

関連論文リスト

Noise Conditional Variational Score Distillation [60.38982038894823]
騒音条件変化スコア蒸留(NCVSD)は, 予混合拡散モデルから生成消音剤を蒸留する新しい方法である。この知見を変分スコア蒸留フレームワークに組み込むことで、生成的デノイザのスケーラブルな学習を可能にする。
論文参考訳（メタデータ） (2025-06-11T06:01:39Z)
Fast T2T: Optimization Consistency Speeds Up Diffusion-Based Training-to-Testing Solving for Combinatorial Optimization [83.65278205301576]
雑音レベルから与えられたインスタンスの最適解への直接写像を学習し、最小限のショットで高品質な生成を容易にすることを提案する。これは、サンプル間の差を最小限に抑える最適化一貫性トレーニングプロトコルによって達成される。 The Traveling Salesman Problem (TSP) と Maximal Independent Set (MIS) は、ソリューションの品質と効率の両方に関して、Fast T2Tの優位性を実証している。
論文参考訳（メタデータ） (2025-02-05T07:13:43Z)
Resampling Filter Design for Multirate Neural Audio Effect Processing [9.149661171430257]
ニューラルネットワークの入力と出力における信号再サンプリングの利用を代替ソリューションとして検討する。カイザー窓FIRフィルタを組み込んだ半帯域IIRフィルタを用いた2段設計により,従来提案されていたモデル調整手法に類似あるいは良好な結果が得られることを示す。
論文参考訳（メタデータ） (2025-01-30T16:44:49Z)
Run-Time Adaptation of Neural Beamforming for Robust Speech Dereverberation and Denoising [15.152748065111194]
本稿では,実環境におけるリアルタイム自動音声認識のための音声強調について述べる。ノイズの多いエコー混合分光器とディープニューラルネットワーク(DNN)からクリーンドライ音声のマスクを推定し、ビームフォーミングに用いる拡張フィルタを算出する。しかし、このような教師付きアプローチのパフォーマンスは、ミスマッチした条件下で大幅に劣化する。
論文参考訳（メタデータ） (2024-10-30T08:32:47Z)
Spatial Annealing for Efficient Few-shot Neural Rendering [73.49548565633123]
我々はtextbfSpatial textbf Annealing regularized textbfNeRF (textbfSANeRF) という,正確で効率的な数発のニューラルレンダリング手法を導入する。単に1行のコードを追加することで、SANeRFは、現在の数ショットのニューラルレンダリング方法と比較して、より優れたレンダリング品質とはるかに高速な再構築速度を提供する。
論文参考訳（メタデータ） (2024-06-12T02:48:52Z)
Single and Few-step Diffusion for Generative Speech Enhancement [18.487296462927034]
拡散モデルは音声強調において有望な結果を示した。本稿では,2段階の学習手法を用いて,これらの制約に対処する。提案手法は定常的な性能を保ち,従って拡散ベースラインよりも大きく向上することを示す。
論文参考訳（メタデータ） (2023-09-18T11:30:58Z)
Low-rank extended Kalman filtering for online learning of neural networks from streaming data [71.97861600347959]
非定常データストリームから非線形関数のパラメータを推定するための効率的なオンライン近似ベイズ推定アルゴリズムを提案する。この方法は拡張カルマンフィルタ (EKF) に基づいているが、新しい低ランク+斜角行列分解法を用いている。変分推論に基づく手法とは対照的に,本手法は完全に決定論的であり,ステップサイズチューニングを必要としない。
論文参考訳（メタデータ） (2023-05-31T03:48:49Z)
Simple Pooling Front-ends For Efficient Audio Classification [56.59107110017436]
入力音声特徴量における時間的冗長性を排除することは,効率的な音声分類に有効な方法である可能性が示唆された。本稿では、単純な非パラメトリックプーリング操作を用いて冗長な情報を削減する単純なプールフロントエンド(SimPFs)のファミリーを提案する。 SimPFは、市販オーディオニューラルネットワークの浮動小数点演算数の半数以上を削減できる。
論文参考訳（メタデータ） (2022-10-03T14:00:41Z)
NerfingMVS: Guided Optimization of Neural Radiance Fields for Indoor Multi-view Stereo [97.07453889070574]
本稿では,従来のSfM再構成と学習に基づく先行手法を併用した多視点深度推定手法を提案する。提案手法は室内シーンにおける最先端手法を著しく上回ることを示す。
論文参考訳（メタデータ） (2021-09-02T17:54:31Z)
Neural Calibration for Scalable Beamforming in FDD Massive MIMO with Implicit Channel Estimation [10.775558382613077]
チャネル推定とビームフォーミングは、周波数分割二重化(FDD)大規模マルチインプット多重出力(MIMO)システムにおいて重要な役割を果たす。受信したアップリンクパイロットに応じて,基地局のビームフォーマを直接最適化する深層学習方式を提案する。エンド・ツー・エンドの設計のスケーラビリティを向上させるために,ニューラルキャリブレーション法を提案する。
論文参考訳（メタデータ） (2021-08-03T14:26:14Z)
Speaker Diarization using Two-pass Leave-One-Out Gaussian PLDA Clustering of DNN Embeddings [9.826793576487736]
本稿では,クラスタリングと埋め込みを用いた話者ダイアリゼーションのためのシステムの2パスバージョンを提案する。コールホームコーパスでは,タスク依存パラメータチューニングを使わずに,最初のエラー率を4%以下で達成する。また,複数のダイアリゼーションタスクに対するロバストな単一ソリューションへの大きな進歩を示す。
論文参考訳（メタデータ） (2021-04-06T12:52:55Z)
Exploiting Multiple Timescales in Hierarchical Echo State Networks [0.0]
エコー状態ネットワーク(ESN)は、線形出力重みのトレーニングのみを必要とする貯水池コンピューティングの強力な形態である。ここでは,貯水池を2つの小さな貯水池に分割した階層型esnの時間スケールを考察する。
論文参考訳（メタデータ） (2021-01-11T22:33:17Z)
Deep Networks for Direction-of-Arrival Estimation in Low SNR [89.45026632977456]
我々は,真の配列多様体行列の変異チャネルデータから学習した畳み込みニューラルネットワーク(CNN)を導入する。我々は低SNR体制でCNNを訓練し、すべてのSNRでDoAを予測する。私たちの堅牢なソリューションは、ワイヤレスアレイセンサーから音響マイクロフォンやソナーまで、いくつかの分野に適用できます。
論文参考訳（メタデータ） (2020-11-17T12:52:18Z)
ADRN: Attention-based Deep Residual Network for Hyperspectral Image Denoising [52.01041506447195]
ノイズの多いHSIからクリーンなHSIへのマッピングを学習するために,注目に基づくディープ残差ネットワークを提案する。実験の結果,提案手法は定量的および視覚的評価において最先端の手法よりも優れていた。
論文参考訳（メタデータ） (2020-03-04T08:36:27Z)
Temporal-Spatial Neural Filter: Direction Informed End-to-End Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。主な課題は、複雑な音響環境とリアルタイム処理の要件である。複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文参考訳（メタデータ） (2020-01-02T11:12:50Z)
End-to-End Multi-Task Denoising for joint SDR and PESQ Optimization [43.15288441772729]
ネットワークの騒音は、ノイズの多い音声からマッピングを学習し、それらを直接掃除する。既存のスキームにはスペクトルと計量ミスマッチの2つの重要な問題がある。本稿では,SDRとPSSQ最適化を併用した新しいエンドツーエンドデノベーションフレームワークを提案する。
論文参考訳（メタデータ） (2019-01-26T02:48:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。