論文の概要: A Lightweight and Real-Time Binaural Speech Enhancement Model with Spatial Cues Preservation
- arxiv url: http://arxiv.org/abs/2409.12444v1
- Date: Thu, 19 Sep 2024 03:52:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 14:52:37.434234
- Title: A Lightweight and Real-Time Binaural Speech Enhancement Model with Spatial Cues Preservation
- Title(参考訳): 空間的キュー保存を考慮した軽量・リアルタイムバイノーラル音声強調モデル
- Authors: Jingyuan Wang, Jie Zhang, Shihao Chen, Miao Sun,
- Abstract要約: バイノーラル音声強調は、聴覚装置から受信される雑音信号の音質と可聴性を改善することを目的としている。
既存の手法は、ノイズ低減(NR)と空間的手がかり(SCP)の精度と保存の妥協に悩まされることが多い。
本稿では、低周波帯域をフィルタし、残りを保ち、NRに優れた学習ベース軽量複合畳み込みネットワーク(LBCCN)を提案する。
- 参考スコア(独自算出の注目度): 19.384404014248762
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Binaural speech enhancement (BSE) aims to jointly improve the speech quality and intelligibility of noisy signals received by hearing devices and preserve the spatial cues of the target for natural listening. Existing methods often suffer from the compromise between noise reduction (NR) capacity and spatial cues preservation (SCP) accuracy and a high computational demand in complex acoustic scenes. In this work, we present a learning-based lightweight binaural complex convolutional network (LBCCN), which excels in NR by filtering low-frequency bands and keeping the rest. Additionally, our approach explicitly incorporates the estimation of interchannel relative acoustic transfer function to ensure the spatial cues fidelity and speech clarity. Results show that the proposed LBCCN can achieve a comparable NR performance to state-of-the-art methods under various noise conditions, but with a much lower computational cost and a better SCP. The reproducible code and audio examples are available at https://github.com/jywanng/LBCCN.
- Abstract(参考訳): バイノーラル音声強調(BSE)は、聴覚装置が受信した雑音信号の音声品質と可聴性を共同で改善し、ターゲットの空間的手がかりを自然聴取に保存することを目的としている。
既存の手法は、複雑な音響シーンにおいて、ノイズ低減(NR)容量と空間的手がかり保存(SCP)精度の妥協と高い計算要求に悩まされることが多い。
本研究では、低周波帯域をフィルタし、残りを保ち、NRの優れた学習ベースの軽量バイノーラル複合畳み込みネットワーク(LBCCN)を提案する。
さらに,提案手法は,空間的手がかりの忠実度と音声明瞭度を確保するために,チャネル間相対音響伝達関数の推定を明示的に取り入れている。
その結果,提案したLBCCNは,様々なノイズ条件下での最先端手法に匹敵するNR性能を達成できるが,計算コストは大幅に低く,SCPも向上した。
再現可能なコードとオーディオサンプルはhttps://github.com/jywanng/LBCCN.comで公開されている。
関連論文リスト
- Neural Acoustic Context Field: Rendering Realistic Room Impulse Response
With Neural Fields [61.07542274267568]
このレターでは、音声シーンをパラメータ化するためのNACFと呼ばれる新しいニューラルネットワークコンテキストフィールドアプローチを提案する。
RIRのユニークな性質により、時間相関モジュールとマルチスケールエネルギー崩壊基準を設計する。
実験の結果,NACFは既存のフィールドベース手法よりも顕著なマージンで優れていた。
論文 参考訳(メタデータ) (2023-09-27T19:50:50Z) - Latent Class-Conditional Noise Model [54.56899309997246]
本稿では,ベイズ的枠組みの下での雑音遷移をパラメータ化するためのLatent Class-Conditional Noise Model (LCCN)を提案する。
次に、Gibs sampler を用いて遅延真のラベルを効率的に推測できる LCCN の動的ラベル回帰法を導出する。
提案手法は,サンプルのミニバッチから事前の任意チューニングを回避するため,ノイズ遷移の安定な更新を保護している。
論文 参考訳(メタデータ) (2023-02-19T15:24:37Z) - Deep Neural Mel-Subband Beamformer for In-car Speech Separation [44.58289679847228]
自動車環境下で音声分離を行うためのDLベースメルバンドビームフォーマを提案する。
従来のサブバンドアプローチとは対照的に、我々のフレームワークはメルバンドベースのサブ選択戦略を使用する。
提案するフレームワークは,すべてのSBおよびFBアプローチに対して,より良い分離性能を実現する。
論文 参考訳(メタデータ) (2022-11-22T21:11:26Z) - Zero-shot Blind Image Denoising via Implicit Neural Representations [77.79032012459243]
暗黙的ニューラル表現(INR)のアーキテクチャ的帰納的バイアスを利用した代替的認知戦略を提案する。
提案手法は,低雑音シナリオや実雑音シナリオの広い範囲において,既存のゼロショット復調手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-05T12:46:36Z) - A Novel Speech Intelligibility Enhancement Model based on
CanonicalCorrelation and Deep Learning [12.913738983870621]
完全畳み込みニューラルネットワーク(FCN)モデルをトレーニングするために,正準相関に基づく短時間客観的インテリジェンス(CC-STOI)コスト関数を提案する。
CC-STOIに基づく音声強調フレームワークは、従来の距離ベースおよびSTOIに基づく損失関数で訓練された最先端のDLモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-02-11T16:48:41Z) - Towards Lightweight Controllable Audio Synthesis with Conditional
Implicit Neural Representations [10.484851004093919]
入射神経表現(英語: Implicit Neural representations、INR)は、低次元関数を近似するニューラルネットワークである。
本研究では、音声合成のための生成フレームワークの軽量バックボーンとして、CINR(Conditional Implicit Neural Representations)の可能性に光を当てた。
論文 参考訳(メタデータ) (2021-11-14T13:36:18Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Deep Networks for Direction-of-Arrival Estimation in Low SNR [89.45026632977456]
我々は,真の配列多様体行列の変異チャネルデータから学習した畳み込みニューラルネットワーク(CNN)を導入する。
我々は低SNR体制でCNNを訓練し、すべてのSNRでDoAを予測する。
私たちの堅牢なソリューションは、ワイヤレスアレイセンサーから音響マイクロフォンやソナーまで、いくつかの分野に適用できます。
論文 参考訳(メタデータ) (2020-11-17T12:52:18Z) - Using deep learning to understand and mitigate the qubit noise
environment [0.0]
本稿では,量子ビット上の時間力学測定から正確な雑音スペクトルを抽出する手法を提案する。
任意の浴槽に囲まれた任意のキュービットに付随する雑音スペクトルを抽出するニューラルネットワークに基づく手法を実証する。
この結果は、様々なキュービットプラットフォームに適用でき、キュービット性能を改善するためのフレームワークを提供する。
論文 参考訳(メタデータ) (2020-05-03T17:13:14Z) - Simultaneous Denoising and Dereverberation Using Deep Embedding Features [64.58693911070228]
ディープ埋め込み特徴を用いた同時発声・発声同時学習法を提案する。
ノイズ発生段階では、DCネットワークを利用してノイズのないディープ埋込み特性を抽出する。
残響段階では、教師なしのK平均クラスタリングアルゴリズムの代わりに、別のニューラルネットワークを用いて無響音声を推定する。
論文 参考訳(メタデータ) (2020-04-06T06:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。