論文の概要: NeuroAMP: A Novel End-to-end General Purpose Deep Neural Amplifier for Personalized Hearing Aids
- arxiv url: http://arxiv.org/abs/2502.10822v1
- Date: Sat, 15 Feb 2025 14:55:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:08:53.717837
- Title: NeuroAMP: A Novel End-to-end General Purpose Deep Neural Amplifier for Personalized Hearing Aids
- Title(参考訳): NeuroAMP: パーソナライズされた補聴器のための新しいエンド・ツー・エンド汎用ディープ・ニューラルアンプ
- Authors: Shafique Ahmed, Ryandhimas E. Zezario, Hui-Guan Yuan, Amir Hussain, Hsin-Min Wang, Wei-Ho Chung, Yu Tsao,
- Abstract要約: 我々は、補聴器のパーソナライズされた増幅のために設計された、新しいディープニューラルネットワークであるNeuroAMPを紹介する。
また、ノイズ低減と増幅機能を統合する拡張であるDenoising NeuroAMPについても紹介する。
- 参考スコア(独自算出の注目度): 29.06268100268562
- License:
- Abstract: The prevalence of hearing aids is increasing. However, optimizing the amplification processes of hearing aids remains challenging due to the complexity of integrating multiple modular components in traditional methods. To address this challenge, we present NeuroAMP, a novel deep neural network designed for end-to-end, personalized amplification in hearing aids. NeuroAMP leverages both spectral features and the listener's audiogram as inputs, and we investigate four architectures: Convolutional Neural Network (CNN), Long Short-Term Memory (LSTM), Convolutional Recurrent Neural Network (CRNN), and Transformer. We also introduce Denoising NeuroAMP, an extension that integrates noise reduction along with amplification capabilities for improved performance in real-world scenarios. To enhance generalization, a comprehensive data augmentation strategy was employed during training on diverse speech (TIMIT and TMHINT) and music (Cadenza Challenge MUSIC) datasets. Evaluation using the Hearing Aid Speech Perception Index (HASPI), Hearing Aid Speech Quality Index (HASQI), and Hearing Aid Audio Quality Index (HAAQI) demonstrates that the Transformer architecture within NeuroAMP achieves the best performance, with SRCC scores of 0.9927 (HASQI) and 0.9905 (HASPI) on TIMIT, and 0.9738 (HAAQI) on the Cadenza Challenge MUSIC dataset. Notably, our data augmentation strategy maintains high performance on unseen datasets (e.g., VCTK, MUSDB18-HQ). Furthermore, Denoising NeuroAMP outperforms both the conventional NAL-R+WDRC approach and a two-stage baseline on the VoiceBank+DEMAND dataset, achieving a 10% improvement in both HASPI (0.90) and HASQI (0.59) scores. These results highlight the potential of NeuroAMP and Denoising NeuroAMP to deliver notable improvements in personalized hearing aid amplification.
- Abstract(参考訳): 補聴器の普及が進んでいる。
しかし、従来の方法で複数のモジュールコンポーネントを統合する複雑さのため、補聴器の増幅プロセスの最適化は依然として困難である。
この課題に対処するために、我々は、補聴器のパーソナライズされた増幅のために設計された、新しいディープニューラルネットワークであるNeuroAMPを紹介する。
NeuroAMPは、スペクトル特徴とリスナーのオーディオグラムの両方を入力として利用し、コンボリューショナルニューラルネットワーク(CNN)、Long Short-Term Memory(LSTM)、Convolutional Recurrent Neural Network(CRNN)、Transformerの4つのアーキテクチャを調査する。
また、実世界のシナリオにおけるパフォーマンスを改善するために、ノイズ低減と増幅機能を統合する拡張であるDenoising NeuroAMPを紹介します。
一般化を促進するため,多様な音声(TIMITおよびTMHINT)と音楽(Cadenza Challenge MUSIC)データセットの訓練において,包括的データ拡張戦略が採用された。
HASPI(Hearing Aid Speech Perception Index)、HASQI(Hearing Aid Speech Quality Index)、HAAQI(Hearing Aid Audio Quality Index)を用いて評価した結果、NeuroAMP内のトランスフォーマーアーキテクチャは、TIMIT上のSRCCスコア0.9927(HASQI)と0.9905(HASPI)、Cadenza Challenge MUSICデータセット上の0.9738(HAAQI)で最高のパフォーマンスを達成することが示された。
特に、我々のデータ拡張戦略は、目に見えないデータセット(例えば、VCTK、MUSDB18-HQ)で高いパフォーマンスを維持しています。
さらに、ニューロAMPは従来のNAL-R+WDRCアプローチとVoiceBank+DEMANDデータセットの2段階ベースラインの両方より優れており、HASPI(0.90)とHASQI(0.59)の両方で10%改善されている。
これらの結果は、パーソナライズされた補聴器増幅の顕著な改善を実現するために、NeuroAMPとDenoising NeuroAMPの可能性を浮き彫りにした。
関連論文リスト
- Neuromorphic Wireless Split Computing with Multi-Level Spikes [69.73249913506042]
ニューロモルフィックコンピューティングは、スパイキングニューラルネットワーク(SNN)を使用して推論タスクを実行する。
スパイクニューロン間で交換される各スパイクに小さなペイロードを埋め込むことで、エネルギー消費を増大させることなく推論精度を高めることができる。
分割コンピューティング — SNNを2つのデバイスに分割する — は、有望なソリューションだ。
本稿では,マルチレベルSNNを用いたニューロモルフィック無線分割コンピューティングアーキテクチャの総合的研究について述べる。
論文 参考訳(メタデータ) (2024-11-07T14:08:35Z) - Neuro-TransUNet: Segmentation of stroke lesion in MRI using transformers [0.6554326244334866]
本研究では,U-Netの空間的特徴抽出をSwinUNETRのグローバルな文脈処理能力と併用するNeuro-TransUNetフレームワークを提案する。
提案したNeuro-TransUNetモデルは、ATLAS v2.0のアントレーニングデータセットでトレーニングされ、既存のディープラーニングアルゴリズムを上回っ、脳卒中病変セグメンテーションの新しいベンチマークを確立する。
論文 参考訳(メタデータ) (2024-06-10T04:36:21Z) - Hopfield-Enhanced Deep Neural Networks for Artifact-Resilient Brain
State Decoding [0.0]
そこで本研究では, ホップフィールド・ネットワークとコナール・ニューラル・ネットワーク(CNN)を併用した2段階の計算手法を提案する。
様々なレベルのデータ圧縮とノイズ強度のパフォーマンスは、我々のフレームワークがアーティファクトを効果的に軽減し、より低いノイズレベルにおいてクリーンなデータCNNと同等の精度でモデルに到達できることを示しました。
論文 参考訳(メタデータ) (2023-11-06T15:08:13Z) - Spiking-LEAF: A Learnable Auditory front-end for Spiking Neural Networks [53.31894108974566]
Spiking-LEAFは、SNNベースの音声処理用に慎重に設計された学習可能な聴覚フロントエンドである。
キーワードスポッティングと話者識別タスクにおいて、提案したSpking-LEAFは、聴覚フロントエンドのSOTAよりも優れている。
論文 参考訳(メタデータ) (2023-09-18T04:03:05Z) - Corticomorphic Hybrid CNN-SNN Architecture for EEG-based Low-footprint
Low-latency Auditory Attention Detection [8.549433398954738]
マルチスピーカー「カクテルパーティー」のシナリオでは、リスナーは興味のある話者に選択的に出席することができる。
ニューラルネットワーク(ANN)を用いた脳波による聴覚的注意検出の最近の動向は,エッジコンピューティングプラットフォームでは実用的ではない。
聴覚野に触発されたハイブリッド畳み込みニューラルネットワーク(CNN-SNN)アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-07-13T20:33:39Z) - Analyzing And Improving Neural Speaker Embeddings for ASR [54.30093015525726]
本稿では,コンバータをベースとしたハイブリッドHMM ASRシステムに,ニューラルスピーカーの埋め込みを統合するための取り組みについて述べる。
話者埋め込みを用いたコンフォーマーベースハイブリッドASRシステムは, SWB 300hでのトレーニングにより, Hub5'00 と Hub5'01 で 9.0% WER を達成する。
論文 参考訳(メタデータ) (2023-01-11T16:56:03Z) - Supervised Neural Discrete Universal Denoiser for Adaptive Denoising [34.13248601205547]
最近開発されたニューラルDUDEは、ニューラルネットワークをベースとした適応型離散復号器である。
我々は、与えられた雑音データに基づいて、パラメータの適応的な微調整とニューラルデューデの教師付き事前学習を適合させる。
論文 参考訳(メタデータ) (2021-11-24T09:09:11Z) - Robust Peak Detection for Holter ECGs by Self-Organized Operational
Neural Networks [12.773050144952593]
ディープ畳み込みニューラルネットワーク(CNN)はホルターモニタで最先端のパフォーマンスレベルを達成した。
本研究では,生成ニューロンを有する1次元自己組織型ONN(Self-ONNs)を提案する。
その結果、CPSCデータセットでは99.10%のF1スコア、99.79%の感度、98.42%の正の予測性が得られることがわかった。
論文 参考訳(メタデータ) (2021-09-30T19:45:06Z) - Sequence-to-sequence Singing Voice Synthesis with Perceptual Entropy
Loss [49.62291237343537]
本稿では,心理音響聴覚モデルから得られた知覚エントロピー(PE)損失をネットワークの正規化のために提案する。
1時間のオープンソース歌唱音声データベースを用いて,PE損失が各種主流系列列列モデルに与える影響について検討する。
論文 参考訳(メタデータ) (2020-10-22T20:14:59Z) - Characterizing Speech Adversarial Examples Using Self-Attention U-Net
Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。
対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文 参考訳(メタデータ) (2020-03-31T02:16:34Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。