論文の概要: DFingerNet: Noise-Adaptive Speech Enhancement for Hearing Aids
- arxiv url: http://arxiv.org/abs/2501.10525v2
- Date: Thu, 23 Jan 2025 14:44:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 12:37:11.818214
- Title: DFingerNet: Noise-Adaptive Speech Enhancement for Hearing Aids
- Title(参考訳): DFingerNet:聴覚支援のための雑音適応型音声強調
- Authors: Iosif Tsangko, Andreas Triantafyllopoulos, Michael Müller, Hendrik Schröter, Björn W. Schuller,
- Abstract要約: DeepFilterNet(DFN)アーキテクチャは補聴器に適したディープラーニングモデルとして提案されている。
この原理をDFNモデルに導入し,DFingerNet(DFiN)モデルを提案する。
- 参考スコア(独自算出の注目度): 41.294460006431564
- License:
- Abstract: The DeepFilterNet (DFN) architecture was recently proposed as a deep learning model suited for hearing aid devices. Despite its competitive performance on numerous benchmarks, it still follows a `one-size-fits-all' approach, which aims to train a single, monolithic architecture that generalises across different noises and environments. However, its limited size and computation budget can hamper its generalisability. Recent work has shown that in-context adaptation can improve performance by conditioning the denoising process on additional information extracted from background recordings to mitigate this. These recordings can be offloaded outside the hearing aid, thus improving performance while adding minimal computational overhead. We introduce these principles to the DFN model, thus proposing the DFingerNet (DFiN) model, which shows superior performance on various benchmarks inspired by the DNS Challenge.
- Abstract(参考訳): DeepFilterNet(DFN)アーキテクチャは補聴器に適したディープラーニングモデルとして提案されている。
多数のベンチマークで競合するパフォーマンスにもかかわらず、異なるノイズや環境をまたいで一般化する単一のモノリシックなアーキテクチャをトレーニングすることを目的としている。
しかし、その制限されたサイズと計算予算は、その一般化を妨げかねない。
近年の研究では、背景記録から抽出した付加情報にデノナイズ処理を施すことにより、文脈内適応による性能向上が図られている。
これらの記録は補聴器の外でオフロードすることができ、計算オーバーヘッドを最小限に抑えながら性能を向上させることができる。
この原理をDFNモデルに導入し,DFingerNet(DFiN)モデルを提案する。
関連論文リスト
- Real-time Speech Enhancement on Raw Signals with Deep State-space Modeling [1.0650780147044159]
ATENNuateは、オンライン生音声の効率向上のために構成された、シンプルなディープな状態空間オートエンコーダである。
我々は、VoiceBank + DEMANDとMicrosoft DNS1合成テストセットでaTENNuateをベンチマークする。
ネットワークは、PSSQスコア、パラメータカウント、MAC、レイテンシの点で、従来のリアルタイムデノナイズモデルを上回っている。
論文 参考訳(メタデータ) (2024-09-05T09:28:56Z) - Efficient Autoregressive Audio Modeling via Next-Scale Prediction [52.663934477127405]
我々は、音声トークン化のトークン長を分析し、新しいtextbfScaleレベルのtextbfAudio textbfTokenizer (SAT) を提案する。
SATをベースとした大規模テキストbfAcoustic textbfAutotextbfRegressive(AAR)モデリングフレームワークが提案されている。
論文 参考訳(メタデータ) (2024-08-16T21:48:53Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Unsupervised speech enhancement with deep dynamical generative speech
and noise models [26.051535142743166]
本研究は、クリーン音声モデルとして動的変分オートエンコーダ(DVAE)、ノイズモデルとして非負行列分解(NMF)を用いた教師なし音声強調に関する以前の研究に基づいている。
本研究では,NMFノイズモデルにDVAE潜伏変数,雑音観測,あるいはその両方に依存する深部動的生成モデル(DDGM)を置き換えることを提案する。
論文 参考訳(メタデータ) (2023-06-13T14:52:35Z) - Simple Pooling Front-ends For Efficient Audio Classification [56.59107110017436]
入力音声特徴量における時間的冗長性を排除することは,効率的な音声分類に有効な方法である可能性が示唆された。
本稿では、単純な非パラメトリックプーリング操作を用いて冗長な情報を削減する単純なプールフロントエンド(SimPFs)のファミリーを提案する。
SimPFは、市販オーディオニューラルネットワークの浮動小数点演算数の半数以上を削減できる。
論文 参考訳(メタデータ) (2022-10-03T14:00:41Z) - Thunder: Thumbnail based Fast Lightweight Image Denoising Network [92.9631117239565]
textbfThumbtextbfnail ベースの textbfDtextbfenoising Netwotextbfrk called Thunder が提案されている。
論文 参考訳(メタデータ) (2022-05-24T06:38:46Z) - A Study of Designing Compact Audio-Visual Wake Word Spotting System
Based on Iterative Fine-Tuning in Neural Network Pruning [57.28467469709369]
視覚情報を利用した小型音声覚醒単語スポッティング(WWS)システムの設計について検討する。
繰り返し微調整方式(LTH-IF)で抽選券仮説を通したニューラルネットワークプルーニング戦略を導入する。
提案システムでは,ノイズ条件の異なる単一モード(オーディオのみ,ビデオのみ)システムに対して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-17T08:26:25Z) - CDLNet: Noise-Adaptive Convolutional Dictionary Learning Network for
Blind Denoising and Demosaicing [4.975707665155918]
アンロール最適化ネットワークは、ディープニューラルネットワークを構築するための解釈可能な代替手段を提供する。
本稿では,非学習型畳み込み辞書学習ネットワーク(CDLNet)を提案する。
具体的には,提案モデルが類似パラメータ数にスケールした場合に,完全畳み込みモデルやJDDモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-12-02T01:23:21Z) - CDLNet: Robust and Interpretable Denoising Through Deep Convolutional
Dictionary Learning [6.6234935958112295]
unrolled optimization networksは、ディープニューラルネットワークを構築するための解釈可能な代替案を提案する。
提案したモデルが,同様のパラメータ数にスケールすると,最先端のデノイジングモデルに勝ることを示す。
論文 参考訳(メタデータ) (2021-03-05T01:15:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。