Fugu-MT 論文翻訳(概要): DFingerNet: Noise-Adaptive Speech Enhancement for Hearing Aids

論文の概要: DFingerNet: Noise-Adaptive Speech Enhancement for Hearing Aids

arxiv url: http://arxiv.org/abs/2501.10525v2
Date: Thu, 23 Jan 2025 14:44:51 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-24 14:13:03.31853
Title: DFingerNet: Noise-Adaptive Speech Enhancement for Hearing Aids
Title（参考訳）: DFingerNet:聴覚支援のための雑音適応型音声強調
Authors: Iosif Tsangko, Andreas Triantafyllopoulos, Michael Müller, Hendrik Schröter, Björn W. Schuller,
Abstract要約: DeepFilterNet(DFN)アーキテクチャは補聴器に適したディープラーニングモデルとして提案されている。この原理をDFNモデルに導入し,DFingerNet(DFiN)モデルを提案する。
参考スコア（独自算出の注目度）: 41.294460006431564
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The DeepFilterNet (DFN) architecture was recently proposed as a deep learning model suited for hearing aid devices. Despite its competitive performance on numerous benchmarks, it still follows a `one-size-fits-all' approach, which aims to train a single, monolithic architecture that generalises across different noises and environments. However, its limited size and computation budget can hamper its generalisability. Recent work has shown that in-context adaptation can improve performance by conditioning the denoising process on additional information extracted from background recordings to mitigate this. These recordings can be offloaded outside the hearing aid, thus improving performance while adding minimal computational overhead. We introduce these principles to the DFN model, thus proposing the DFingerNet (DFiN) model, which shows superior performance on various benchmarks inspired by the DNS Challenge.
Abstract（参考訳）: DeepFilterNet(DFN)アーキテクチャは補聴器に適したディープラーニングモデルとして提案されている。多数のベンチマークで競合するパフォーマンスにもかかわらず、異なるノイズや環境をまたいで一般化する単一のモノリシックなアーキテクチャをトレーニングすることを目的としている。しかし、その制限されたサイズと計算予算は、その一般化を妨げかねない。近年の研究では、背景記録から抽出した付加情報にデノナイズ処理を施すことにより、文脈内適応による性能向上が図られている。これらの記録は補聴器の外でオフロードすることができ、計算オーバーヘッドを最小限に抑えながら性能を向上させることができる。この原理をDFNモデルに導入し,DFingerNet(DFiN)モデルを提案する。

関連論文リスト

Enhance Vision-Language Alignment with Noise [59.2608298578913]
本研究では,凍結モデルがカスタマイズノイズによって微調整可能であるか検討する。ビジュアルエンコーダとテキストエンコーダの両方にノイズを注入することでCLIPを微調整できる正インセンティブノイズ(PiNI)を提案する。
論文参考訳（メタデータ） (2024-12-14T12:58:15Z)
Real-time Speech Enhancement on Raw Signals with Deep State-space Modeling [1.0650780147044159]
ATENNuateは、オンライン生音声の効率向上のために構成された、シンプルなディープな状態空間オートエンコーダである。我々は、VoiceBank + DEMANDとMicrosoft DNS1合成テストセットでaTENNuateをベンチマークする。ネットワークは、PSSQスコア、パラメータカウント、MAC、レイテンシの点で、従来のリアルタイムデノナイズモデルを上回っている。
論文参考訳（メタデータ） (2024-09-05T09:28:56Z)
Efficient Autoregressive Audio Modeling via Next-Scale Prediction [52.663934477127405]
我々は、音声トークン化のトークン長を分析し、新しいtextbfScaleレベルのtextbfAudio textbfTokenizer (SAT) を提案する。 SATをベースとした大規模テキストbfAcoustic textbfAutotextbfRegressive(AAR)モデリングフレームワークが提案されている。
論文参考訳（メタデータ） (2024-08-16T21:48:53Z)
CheapNET: Improving Light-weight speech enhancement network by projected loss function [0.8192907805418583]
我々は,MSEから分岐した新しい投射損失関数を導入し,雑音抑制を向上する。エコーキャンセリングのために、この関数はLAEC事前処理された出力の直接予測を可能にする。ノイズ抑制モデルは,3.1Mパラメータと0.4GFlops/s計算負荷のみを用いて,ほぼ最先端の結果が得られる。
論文参考訳（メタデータ） (2023-11-27T16:03:42Z)
Unsupervised speech enhancement with deep dynamical generative speech and noise models [26.051535142743166]
本研究は、クリーン音声モデルとして動的変分オートエンコーダ(DVAE)、ノイズモデルとして非負行列分解(NMF)を用いた教師なし音声強調に関する以前の研究に基づいている。本研究では,NMFノイズモデルにDVAE潜伏変数,雑音観測,あるいはその両方に依存する深部動的生成モデル(DDGM)を置き換えることを提案する。
論文参考訳（メタデータ） (2023-06-13T14:52:35Z)
Simple Pooling Front-ends For Efficient Audio Classification [56.59107110017436]
入力音声特徴量における時間的冗長性を排除することは,効率的な音声分類に有効な方法である可能性が示唆された。本稿では、単純な非パラメトリックプーリング操作を用いて冗長な情報を削減する単純なプールフロントエンド(SimPFs)のファミリーを提案する。 SimPFは、市販オーディオニューラルネットワークの浮動小数点演算数の半数以上を削減できる。
論文参考訳（メタデータ） (2022-10-03T14:00:41Z)
A Study of Designing Compact Audio-Visual Wake Word Spotting System Based on Iterative Fine-Tuning in Neural Network Pruning [57.28467469709369]
視覚情報を利用した小型音声覚醒単語スポッティング(WWS)システムの設計について検討する。繰り返し微調整方式(LTH-IF)で抽選券仮説を通したニューラルネットワークプルーニング戦略を導入する。提案システムでは,ノイズ条件の異なる単一モード(オーディオのみ,ビデオのみ)システムに対して,大幅な性能向上を実現している。
論文参考訳（メタデータ） (2022-02-17T08:26:25Z)
CDLNet: Noise-Adaptive Convolutional Dictionary Learning Network for Blind Denoising and Demosaicing [4.975707665155918]
アンロール最適化ネットワークは、ディープニューラルネットワークを構築するための解釈可能な代替手段を提供する。本稿では,非学習型畳み込み辞書学習ネットワーク(CDLNet)を提案する。具体的には,提案モデルが類似パラメータ数にスケールした場合に,完全畳み込みモデルやJDDモデルよりも優れていることを示す。
論文参考訳（メタデータ） (2021-12-02T01:23:21Z)
Time-domain Speech Enhancement with Generative Adversarial Learning [53.74228907273269]
本稿では,TSEGAN(Time-domain Speech Enhancement Generative Adversarial Network)という新しいフレームワークを提案する。 TSEGANは、スケーリング問題を軽減するためのメトリクス評価を備えた時間領域におけるジェネレーション・アドバーサリ・ネットワーク(GAN)の拡張である。さらに,計量ganの性能を理論的に解析するために,客観的関数マッピングに基づく新しい手法を提案する。
論文参考訳（メタデータ） (2021-03-30T08:09:49Z)
CDLNet: Robust and Interpretable Denoising Through Deep Convolutional Dictionary Learning [6.6234935958112295]
unrolled optimization networksは、ディープニューラルネットワークを構築するための解釈可能な代替案を提案する。提案したモデルが,同様のパラメータ数にスケールすると,最先端のデノイジングモデルに勝ることを示す。
論文参考訳（メタデータ） (2021-03-05T01:15:59Z)
Variational Autoencoder for Speech Enhancement with a Noise-Aware Encoder [30.318947721658862]
本稿では,ノイズ対応エンコーダを用いて,学習段階での雑音情報を含むことを提案する。提案するノイズ認識vaeは,モデルパラメータ数を増加させることなく,全体的な歪みの観点から標準vaeを上回っている。
論文参考訳（メタデータ） (2021-02-17T11:40:42Z)
Deep Speaker Embeddings for Far-Field Speaker Recognition on Short Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文参考訳（メタデータ） (2020-02-14T13:34:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。