論文の概要: The Differentiable Auditory Loop (DAL): An ML Framework for Hyper-Personalized Hearing Aids
- arxiv url: http://arxiv.org/abs/2606.04103v1
- Date: Tue, 02 Jun 2026 18:09:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.308559
- Title: The Differentiable Auditory Loop (DAL): An ML Framework for Hyper-Personalized Hearing Aids
- Title(参考訳): DAL(Dariable Auditory Loop)は、過度にパーソナライズされた補聴器のためのMLフレームワークである
- Authors: Alejandro Ballesta Rosen, Jason Mikiel-Hunter, Julian Maclaren, Jack Collins, Richard F. Lyon, Simon Carlile,
- Abstract要約: そこで我々は、パーソナライズされた補聴器の設計と装着のための新しいオープンソースフレームワークであるDAL(Dariable Auditory Loop)を紹介した。
DALの最初の実装は、JAXに移植したヒト人工内耳機能の微分可能なモデルであるCARFACを組み込んだものです。
正常聴力に適合するCARFACモデルの出力と、各被験者の個々の聴覚障害に適合するCARFACモデルの出力とを比較して、ネットワークを微調整する。
- 参考スコア(独自算出の注目度): 37.1481573639646
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Conventional hearing aids rely on fixed, frequency-dependent amplification and compression to manage reduced sensitivity, which often fails to provide sufficient listening support in complex environments, such as situations with multiple speakers (the ``cocktail party'' problem). To more comprehensively address the underlying encoding dysfunctions of hearing loss, we introduce the Differentiable Auditory Loop (DAL), a new open-source framework for personalized hearing aid design and fitting. Our first implementation of DAL incorporates CARFAC, a differentiable model of human cochlear function, which we ported to JAX, to optimize a deep neural network to match impaired auditory neural activity patterns with a normal-hearing reference. To build a hearing aid with the fine-grained spectro-temporal signal processing required, we adopt SEANet, a waveform-to-waveform fully convolutional UNet generator. We fine-tune the network by comparing the outputs of a CARFAC model fitted to normal hearing with that of a CARFAC model fitted to match each subject's individual hearing impairment. The comparison is done using loss functions derived from the respective CARFAC neural activity pattern (NAP) outputs and stabilized auditory images (SAIs), the latter providing a 2D representation that captures phase-insensitive temporal structure in the auditory nerve output. Through gradient descent, the SEANet model learns to both denoise the input and compensate for the hearing loss modelled by the impaired CARFAC model. Across neural-representation and signal-fidelity metrics, the DAL-optimized SEANet model outperformed the tested master hearing aid (MHA) baselines. The DAL framework provides a practical path toward model-based, machine-learning-driven personalization of hearing aid signal processing. Next steps include hardware deployment to enable real-world clinical testing.
- Abstract(参考訳): 従来の補聴器は、感度の低下を管理するために、固定された周波数依存増幅と圧縮に依存しており、複数の話者の状況(「カクテルパーティー」問題)のような複雑な環境で十分な聴取支援を提供していないことが多い。
難聴のエンコーディング障害をより包括的に解決するために、パーソナライズされた補聴器の設計と適合のための新しいオープンソースフレームワークであるDAL(diffariable Auditory Loop)を導入する。
DALの最初の実装では、JAXに移植したヒト人工内耳機能の微分可能なモデルであるCARFACを導入し、聴覚神経活動パターンと正常聴取基準を一致させるために、ディープニューラルネットワークを最適化した。
微細な分光時間信号処理を必要とする補聴器を構築するために、波形から波形までの完全畳み込みUNet生成装置であるSEANetを採用する。
正常聴力に適合するCARFACモデルの出力と、各被験者の個々の聴覚障害に適合するCARFACモデルの出力とを比較して、ネットワークを微調整する。
比較は、それぞれのCARFAC神経活動パターン(NAP)出力と安定化聴覚画像(SAI)から導かれる損失関数を用いて行われ、後者は、聴覚神経出力の位相非感受性時間構造をキャプチャする2D表現を提供する。
勾配降下により、SEANetモデルは入力をノイズ化し、障害のあるCARFACモデルによってモデル化された聴覚損失を補償する。
DAL最適化SEANetモデルでは、ニューラル表現と信号忠実度の測定値全体で、テストされたマスター補聴器(MHA)ベースラインよりも優れていた。
DALフレームワークは、モデルに基づく機械学習による補聴器信号処理のパーソナライズに向けた実践的なパスを提供する。
次のステップは、実際の臨床テストを可能にするハードウェアデプロイメントだ。
関連論文リスト
- Test-time Adaptive Hierarchical Co-enhanced Denoising Network for Reliable Multimodal Classification [55.56234913868664]
マルチモーダルデータを用いた信頼性学習のためのTAHCD(Test-time Adaptive Hierarchical Co-enhanced Denoising Network)を提案する。
提案手法は,最先端の信頼性の高いマルチモーダル学習手法と比較して,優れた分類性能,堅牢性,一般化を実現する。
論文 参考訳(メタデータ) (2026-01-12T03:14:12Z) - Back to Ear: Perceptually Driven High Fidelity Music Reconstruction [4.380428073231143]
epsilonar-VAEは、変分オートエンコーダ(VAE)を再考し最適化するオープンソースの音楽信号再構成モデルである
実験の結果、epsilonar-VAEは44.1kHzで、様々なメトリクスにわたる主要なオープンソースモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-09-18T12:41:34Z) - Reliable Few-shot Learning under Dual Noises [166.53173694689693]
そこで我々はDETA++(Denoized Task Adaptation)を提案する。
DETA++はメモリバンクを使用して、各インナータスククラスのクリーンなリージョンを格納し、精製する。
大規模な実験は、DETA++の有効性と柔軟性を示している。
論文 参考訳(メタデータ) (2025-06-19T14:05:57Z) - RBA-FE: A Robust Brain-Inspired Audio Feature Extractor for Depression Diagnosis [6.6826445546254964]
本稿では,脳にインスパイアされた音声特徴抽出器(RBA-FE)を改良した階層型ネットワークアーキテクチャを用いて,抑うつ診断のためのモデルを提案する。
RBA-FEは、ノイズを調整するために、生音声から抽出した6つの音響特性を活用し、空間特性と時間依存性の両方をキャプチャする。
ノイズ問題に対処するため,本モデルは適応速度スムーズなインテリジェンス・アンド・ファイア (ARSLIF) と呼ばれる改良されたスパイクニューロンモデルを組み込んだ。
論文 参考訳(メタデータ) (2025-06-08T13:00:45Z) - Modelling the Effects of Hearing Loss on Neural Coding in the Auditory Midbrain with Variational Conditioning [1.837431956557716]
健常動物および騒音曝露動物の聴覚中脳における神経活動の記録から直接聴覚損失の空間を符号化する新しい変分条件モデルを提案する。
動物1頭あたりの聴力損失は6自由パラメータのみであり, 正常聴力動物の神経反応の62%, 難聴動物の68%を正確に予測した。
このモデルにより、聴覚障害脳における正常なニューラルコーディングを直接復元するために訓練されたパラメトリック聴覚損失補償モデルの将来の開発が可能になる。
論文 参考訳(メタデータ) (2025-06-03T17:12:21Z) - DeepSpeech models show Human-like Performance and Processing of Cochlear Implant Inputs [12.234206036041218]
我々は、ディープニューラルネットワーク(DNN)のDeepSpeech2をパラダイムとして、自然入力と人工内耳ベースの入力が時間の経過とともにどのように処理されるかを調べる。
音声文から自然言語および人工内耳のような入力を生成し、モデル性能と人的性能の類似性を検証した。
各レイヤにおける時間的ダイナミクスは、コンテキストや入力タイプの影響を受けます。
論文 参考訳(メタデータ) (2024-07-30T04:32:27Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Exploiting Cross Domain Acoustic-to-articulatory Inverted Features For
Disordered Speech Recognition [57.15942628305797]
調音機能は音響信号歪みに不変であり、正常音声の自動音声認識システムにうまく組み込まれている。
本稿では,15時間 TORGO コーパスの並列音響・調音データをモデルトレーニングに用いるクロスドメイン音響・調音(A2A)インバージョン手法を提案する。
クロスドメインは102.7時間のUASpeechコーパスに適応し、調音的特徴を生産する。
論文 参考訳(メタデータ) (2022-03-19T08:47:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。