論文の概要: Customizable End-to-end Optimization of Online Neural Network-supported
Dereverberation for Hearing Devices
- arxiv url: http://arxiv.org/abs/2204.02694v1
- Date: Wed, 6 Apr 2022 09:43:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-07 15:25:56.244931
- Title: Customizable End-to-end Optimization of Online Neural Network-supported
Dereverberation for Hearing Devices
- Title(参考訳): 補聴器用オンラインニューラルネット支援デバーバレーションのカスタマイズ可能なエンドツーエンド最適化
- Authors: Jean-Marie Lemercier, Joachim Thiemann, Raphael Koning and Timo
Gerkmann
- Abstract要約: 本研究は,重み付き予測誤差(WPE)アルゴリズムを用いた補聴器のオンライン残響に着目した。
本稿では,オンライン処理に特化したエンドツーエンドアプローチを提案する。
提案手法は,WHAMRデータセットのノイズフリーバージョンにおいて,従来のDNN対応のWPEよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 13.49645012479288
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work focuses on online dereverberation for hearing devices using the
weighted prediction error (WPE) algorithm. WPE filtering requires an estimate
of the target speech power spectral density (PSD). Recently deep neural
networks (DNNs) have been used for this task. However, these approaches
optimize the PSD estimate which only indirectly affects the WPE output, thus
potentially resulting in limited dereverberation. In this paper, we propose an
end-to-end approach specialized for online processing, that directly optimizes
the dereverberated output signal. In addition, we propose to adapt it to the
needs of different types of hearing-device users by modifying the optimization
target as well as the WPE algorithm characteristics used in training. We show
that the proposed end-to-end approach outperforms the traditional and
conventional DNN-supported WPEs on a noise-free version of the WHAMR! dataset.
- Abstract(参考訳): 本研究は,重み付き予測誤差(WPE)アルゴリズムを用いた補聴器のオンライン残響に着目した。
WPEフィルタリングでは、ターゲット音声パワースペクトル密度(PSD)を推定する必要がある。
近年,このタスクにはディープニューラルネットワーク(DNN)が使用されている。
しかし、これらのアプローチは、間接的にwpe出力にのみ影響するpsd推定を最適化するので、潜在的に収差が限定される。
本稿では,遅延出力信号を直接最適化するオンライン処理に特化したエンド・ツー・エンド方式を提案する。
さらに,学習に使用するWPEアルゴリズムの特徴だけでなく,最適化対象を変更することで,様々なタイプの補聴器利用者のニーズに適応することを提案する。
提案手法は,WHAMRデータセットのノイズフリーバージョンにおいて,従来のDNN対応のWPEよりも優れていることを示す。
関連論文リスト
- Run-Time Adaptation of Neural Beamforming for Robust Speech Dereverberation and Denoising [15.152748065111194]
本稿では,実環境におけるリアルタイム自動音声認識のための音声強調について述べる。
ノイズの多いエコー混合分光器とディープニューラルネットワーク(DNN)からクリーンドライ音声のマスクを推定し、ビームフォーミングに用いる拡張フィルタを算出する。
しかし、このような教師付きアプローチのパフォーマンスは、ミスマッチした条件下で大幅に劣化する。
論文 参考訳(メタデータ) (2024-10-30T08:32:47Z) - Bayesian Optimization for Hyperparameters Tuning in Neural Networks [0.0]
ベイズ最適化 (Bayesian Optimization) は、連続的な入力と限られた評価予算を持つブラックボックス関数に適した微分自由大域最適化手法である。
本研究では,畳み込みニューラルネットワーク(CNN)の強化を目的としたニューラルネットワークのハイパーパラメータチューニングにおけるBOの適用について検討する。
実験結果から,BOは探索と利用のバランスを効果的に保ち,CNNアーキテクチャの最適設定に向けて急速に収束することが明らかとなった。
このアプローチは、ニューラルネットワークチューニングの自動化におけるBOの可能性を強調し、機械学習パイプラインの精度と計算効率の改善に寄与する。
論文 参考訳(メタデータ) (2024-10-29T09:23:24Z) - DiSK: Differentially Private Optimizer with Simplified Kalman Filter for Noise Reduction [57.83978915843095]
本稿では,微分プライベート勾配の性能を著しく向上する新しいフレームワークであるDiSKを紹介する。
大規模トレーニングの実用性を確保するため,Kalmanフィルタプロセスを簡素化し,メモリと計算要求を最小化する。
論文 参考訳(メタデータ) (2024-10-04T19:30:39Z) - A Meta-Learning Based Precoder Optimization Framework for Rate-Splitting
Multiple Access [53.191806757701215]
本稿では,トランスミッタ(CSIT)における部分チャネル状態情報を持つRSMAプリコーダを直接最適化するために,メタラーニングに基づく事前コーダ最適化フレームワークを提案する。
コンパクトニューラルネットワークのオーバーフィッティングを利用して、ASR(Average Sum-Rate)表現を最大化することにより、実行時間を最小化しながら、他のトレーニングデータの必要性を効果的に回避する。
数値的な結果から,メタラーニングに基づく解は,中規模シナリオにおける従来のプリコーダ最適化に類似したASR性能を実現し,大規模シナリオにおける準最適低複雑性プリコーダアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-07-17T20:31:41Z) - Parameter-Efficient Learning for Text-to-Speech Accent Adaptation [58.356667204518985]
本稿では、テキスト音声(TTS)のための低リソースアクセント適応を開発するためのパラメータ効率学習(PEL)を提案する。
冷凍前訓練TSモデルからの資源効率適応は、元のトレーニング可能なパラメータの1.2%から0.8%しか使用していない。
実験結果から,提案手法はパラメータ効率の高いデコーダの微調整により,自然度と競合できることがわかった。
論文 参考訳(メタデータ) (2023-05-18T22:02:59Z) - Prediction-Oriented Bayesian Active Learning [51.426960808684655]
予測情報ゲイン(EPIG)は、パラメータではなく予測空間における情報ゲインを測定する。
EPIGは、さまざまなデータセットやモデルにわたるBALDと比較して、予測パフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-04-17T10:59:57Z) - Neural Network-augmented Kalman Filtering for Robust Online Speech
Dereverberation in Noisy Reverberant Environments [13.49645012479288]
ノイズローバストオンラインデバーベレーションのためのニューラルネットワーク拡張アルゴリズムを提案する。
提示されたフレームワークは、単一チャネルのノイズの多い残響データセット上で堅牢なデバーベレーションを可能にする。
論文 参考訳(メタデータ) (2022-04-06T11:38:04Z) - A neural network-supported two-stage algorithm for lightweight
dereverberation on hearing devices [13.49645012479288]
本稿では,2段階の軽量オンライン補聴器のオンライン補聴アルゴリズムについて述べる。
このアプローチは、マルチチャネルのマルチフレーム線形フィルタとシングルチャネルのシングルフレームポストフィルタを組み合わせる。
どちらのコンポーネントも、ディープニューラルネットワーク(DNN)によって提供されるパワースペクトル密度(PSD)の推定に依存している。
論文 参考訳(メタデータ) (2022-04-06T11:08:28Z) - Sample-efficient Iterative Lower Bound Optimization of Deep Reactive
Policies for Planning in Continuous MDPs [27.41101006357176]
本研究では,最小化-最大化の観点から反復的に最適化する。
w.r.t.は局所的に厳密な下界の目的である。
反復的下界最適化(ILBO)としての学習の新たな定式化は、(i)各ステップが全体目標よりも構造的に容易に最適化できるため、特に魅力的である。
実験的な評価により、ILBOは最先端のプランナーよりもはるかに試料効率が高いことが確認された。
論文 参考訳(メタデータ) (2022-03-23T19:06:16Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Adaptive Inference through Early-Exit Networks: Design, Challenges and
Directions [80.78077900288868]
初期のネットワークの設計手法をその重要コンポーネントに分解し、各コンポーネントの最近の進歩を調査する。
我々は、他の効率的な推論ソリューションと早期に競合する立場をとり、この分野の研究における現在の課題と最も有望な今後の方向性についての洞察を提供する。
論文 参考訳(メタデータ) (2021-06-09T12:33:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。