論文の概要: CLCNet: Deep learning-based Noise Reduction for Hearing Aids using
Complex Linear Coding
- arxiv url: http://arxiv.org/abs/2001.10218v1
- Date: Tue, 28 Jan 2020 09:08:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-06 02:14:20.816920
- Title: CLCNet: Deep learning-based Noise Reduction for Hearing Aids using
Complex Linear Coding
- Title(参考訳): CLCNet:複合線形符号化を用いた難聴者に対するディープラーニングに基づくノイズ低減
- Authors: Hendrik Schr\"oter, Tobias Rosenkranz, Alberto N. Escalante B., Marc
Aubreville, Andreas Maier
- Abstract要約: 雑音環境下でのモナラ音声強調を改善するために,CLCNetを提案する。
まず、複素周波数領域に適用される線形予測符号化(LPC)によって動機付けられた複素線形符号化を定義する。
次に,複雑なスペクトログラム入力と係数出力を組み込んだフレームワークを提案する。
第3に、低レイテンシおよびオンライン処理に適合する複素値分光器のパラメトリック正規化を定義する。
- 参考スコア(独自算出の注目度): 10.432493619194938
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Noise reduction is an important part of modern hearing aids and is included
in most commercially available devices. Deep learning-based state-of-the-art
algorithms, however, either do not consider real-time and frequency resolution
constrains or result in poor quality under very noisy conditions. To improve
monaural speech enhancement in noisy environments, we propose CLCNet, a
framework based on complex valued linear coding. First, we define complex
linear coding (CLC) motivated by linear predictive coding (LPC) that is applied
in the complex frequency domain. Second, we propose a framework that
incorporates complex spectrogram input and coefficient output. Third, we define
a parametric normalization for complex valued spectrograms that complies with
low-latency and on-line processing. Our CLCNet was evaluated on a mixture of
the EUROM database and a real-world noise dataset recorded with hearing aids
and compared to traditional real-valued Wiener-Filter gains.
- Abstract(参考訳): ノイズ低減は現代の補聴器の重要な部分であり、ほとんどの市販デバイスに含まれている。
しかし、ディープラーニングに基づく最先端のアルゴリズムは、リアルタイムおよび周波数分解の制約を考慮していないか、あるいは非常にノイズの多い条件下では品質が劣る。
雑音環境下でのモナラ音声強調を改善するために,複素値線形符号化に基づくCLCNetを提案する。
まず、複素周波数領域に適用される線形予測符号化(LPC)によって動機付けられた複素線形符号化(CLC)を定義する。
次に,複雑なスペクトル入力と係数出力を組み込んだフレームワークを提案する。
第3に、低遅延およびオンライン処理に対応する複雑な値のスペクトログラムに対するパラメトリック正規化を定義する。
我々のCLCNetは、従来のWiener-Filterゲインと比較して、EUROMデータベースと補聴器で記録された実世界のノイズデータセットを混合して評価した。
関連論文リスト
- A Lightweight and Real-Time Binaural Speech Enhancement Model with Spatial Cues Preservation [19.384404014248762]
バイノーラル音声強調は、聴覚装置から受信される雑音信号の音質と可聴性を改善することを目的としている。
既存の手法は、ノイズ低減(NR)と空間的手がかり(SCP)の精度と保存の妥協に悩まされることが多い。
本稿では、低周波帯域をフィルタし、残りを保ち、NRに優れた学習ベース軽量複合畳み込みネットワーク(LBCCN)を提案する。
論文 参考訳(メタデータ) (2024-09-19T03:52:50Z) - Robust Learning under Hybrid Noise [24.36707245704713]
本稿では,データリカバリの観点からハイブリッドノイズに対処するため,新たな統合学習フレームワーク"Feature and Label Recovery"(FLR)を提案する。
論文 参考訳(メタデータ) (2024-07-04T16:13:25Z) - A Meta-Learning Based Precoder Optimization Framework for Rate-Splitting
Multiple Access [53.191806757701215]
本稿では,トランスミッタ(CSIT)における部分チャネル状態情報を持つRSMAプリコーダを直接最適化するために,メタラーニングに基づく事前コーダ最適化フレームワークを提案する。
コンパクトニューラルネットワークのオーバーフィッティングを利用して、ASR(Average Sum-Rate)表現を最大化することにより、実行時間を最小化しながら、他のトレーニングデータの必要性を効果的に回避する。
数値的な結果から,メタラーニングに基づく解は,中規模シナリオにおける従来のプリコーダ最適化に類似したASR性能を実現し,大規模シナリオにおける準最適低複雑性プリコーダアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-07-17T20:31:41Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - NLIP: Noise-robust Language-Image Pre-training [95.13287735264937]
雑音調和と雑音補完という2つの手法を用いて事前学習の安定化を図るため,NLIPの原理的手法を提案する。
我々のNLIPは、画像テキスト事前学習における一般的なノイズ効果をより効率的に軽減することができる。
論文 参考訳(メタデータ) (2022-12-14T08:19:30Z) - Simple Pooling Front-ends For Efficient Audio Classification [56.59107110017436]
入力音声特徴量における時間的冗長性を排除することは,効率的な音声分類に有効な方法である可能性が示唆された。
本稿では、単純な非パラメトリックプーリング操作を用いて冗長な情報を削減する単純なプールフロントエンド(SimPFs)のファミリーを提案する。
SimPFは、市販オーディオニューラルネットワークの浮動小数点演算数の半数以上を削減できる。
論文 参考訳(メタデータ) (2022-10-03T14:00:41Z) - NAF: Neural Attenuation Fields for Sparse-View CBCT Reconstruction [79.13750275141139]
本稿では,スパースビューCBCT再構成のための新規かつ高速な自己教師型ソリューションを提案する。
所望の減衰係数は、3次元空間座標の連続関数として表現され、完全に接続されたディープニューラルネットワークによってパラメータ化される。
ハッシュ符号化を含む学習ベースのエンコーダが採用され、ネットワークが高周波の詳細をキャプチャするのに役立つ。
論文 参考訳(メタデータ) (2022-09-29T04:06:00Z) - Recovery of Linear Components: Reduced Complexity Autoencoder Designs [0.951828574518325]
本論文では,線形・非線形次元低減技術の中間点となる線形成分の回収(Recovery of Linear Components, RLC)という手法を提案する。
合成および実世界のケーススタディの助けを借りて,類似した複雑性を持つオートエンコーダと比較すると,rlcは高い精度を示し,頑健性と過剰適合性,より高速なトレーニング時間を示すことを示した。
論文 参考訳(メタデータ) (2020-12-14T14:08:20Z) - Conditioning Trick for Training Stable GANs [70.15099665710336]
本稿では,GANトレーニング中の不安定性問題に対応するため,ジェネレータネットワークに正規性から逸脱する条件付け手法を提案する。
我々は、生成元をシュア分解のスペクトル領域で計算された実サンプルの正規化関数から逸脱するように強制する。
論文 参考訳(メタデータ) (2020-10-12T16:50:22Z) - Using deep learning to understand and mitigate the qubit noise
environment [0.0]
本稿では,量子ビット上の時間力学測定から正確な雑音スペクトルを抽出する手法を提案する。
任意の浴槽に囲まれた任意のキュービットに付随する雑音スペクトルを抽出するニューラルネットワークに基づく手法を実証する。
この結果は、様々なキュービットプラットフォームに適用でき、キュービット性能を改善するためのフレームワークを提供する。
論文 参考訳(メタデータ) (2020-05-03T17:13:14Z) - Single-Shot Decoding of Linear Rate LDPC Quantum Codes with High
Performance [5.33024001730262]
我々は、線形符号化率、スケーリング距離、効率的な復号方式を用いて、低密度パリティチェック(LDPC)量子コード群を構築し、解析する。
コードファミリーは、Guth と Lubotzky が最初に示唆したように、閉じた4次元の双曲型のテッセルレーションに基づいている。
論文 参考訳(メタデータ) (2020-01-10T17:21:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。