論文の概要: Deep Active Speech Cancellation with Mamba-Masking Network
- arxiv url: http://arxiv.org/abs/2502.01185v2
- Date: Sun, 25 May 2025 12:26:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 14:32:53.270976
- Title: Deep Active Speech Cancellation with Mamba-Masking Network
- Title(参考訳): Mamba-Masking Networkを用いたディープアクティブ音声キャンセラ
- Authors: Yehuda Mishaly, Lior Wolf, Eliya Nachmani,
- Abstract要約: アクティブ音声キャンセラ(ASC)のための新しい深層学習ネットワークを提案する。
提案したMamba-Maskingアーキテクチャは、符号化された参照信号と直接対話するマスキング機構を導入する。
実験の結果、ANCシナリオでは7.2dB、ASCでは6.2dBの改善が達成された。
- 参考スコア(独自算出の注目度): 62.73250985838971
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel deep learning network for Active Speech Cancellation (ASC), advancing beyond Active Noise Cancellation (ANC) methods by effectively canceling both noise and speech signals. The proposed Mamba-Masking architecture introduces a masking mechanism that directly interacts with the encoded reference signal, enabling adaptive and precisely aligned anti-signal generation-even under rapidly changing, high-frequency conditions, as commonly found in speech. Complementing this, a multi-band segmentation strategy further improves phase alignment across frequency bands. Additionally, we introduce an optimization-driven loss function that provides near-optimal supervisory signals for anti-signal generation. Experimental results demonstrate substantial performance gains, achieving up to 7.2dB improvement in ANC scenarios and 6.2dB in ASC, significantly outperforming existing methods.
- Abstract(参考訳): 本稿では,音声信号と音声信号の両方を効果的にキャンセルすることにより,アクティブノイズキャンセラ(ANC)法を超えて進化する,アクティブ音声キャンセラ(ASC)のための新しいディープラーニングネットワークを提案する。
提案したMamba-Maskingアーキテクチャは、符号化された参照信号と直接対話するマスキング機構を導入し、音声でよく見られるように、急速に変化する高周波条件下で適応的かつ正確に整列された反信号生成を可能にする。
これを補完するため、マルチバンド分割戦略は周波数帯域間の位相アライメントをさらに改善する。
さらに,信号生成に最適に近い信号を提供する最適化駆動損失関数を導入する。
実験の結果、ANCのシナリオでは7.2dB、ASCでは6.2dB、既存の手法では大幅に向上した。
関連論文リスト
- Unsupervised CP-UNet Framework for Denoising DAS Data with Decay Noise [13.466125373185399]
分散音響センサ(DAS)技術は光ファイバーケーブルを利用して音響信号を検出する。
DASは、ジオフォンよりも低い信号対雑音比(S/N)を示す。
これにより、S/Nの低減は、反転と解釈を含むデータ解析に悪影響を及ぼす。
論文 参考訳(メタデータ) (2025-02-19T03:09:49Z) - DenoMAE: A Multimodal Autoencoder for Denoising Modulation Signals [21.25974800554959]
デノマエ(DenoMAE)は、プレトレーニング中に変調信号を復調するための新しいフレームワークである。
ノイズを含む複数の入力モダリティを組み込んで、クロスモーダル学習を強化する。
自動変調分類タスクにおける最先端の精度を実現する。
論文 参考訳(メタデータ) (2025-01-20T15:23:16Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - AMC-Net: An Effective Network for Automatic Modulation Classification [22.871024969842335]
本稿では,マルチスケールかつ効率的な特徴抽出を行いながら,周波数領域の入力信号をノイズ化することで認識を改善する新しいAMC-Netを提案する。
2つの代表的なデータセットの実験により、我々のモデルは、現在の方法よりも効率と効率が良いことを示した。
論文 参考訳(メタデータ) (2023-04-02T04:26:30Z) - Unifying Speech Enhancement and Separation with Gradient Modulation for
End-to-End Noise-Robust Speech Separation [23.758202121043805]
本稿では,音声の強調と分離を勾配変調で統一し,ノイズ・ロバスト性を改善する新しいネットワークを提案する。
実験結果から,大規模Libri2Mix-およびLibri3Mix-noisyデータセットの最先端化が得られた。
論文 参考訳(メタデータ) (2023-02-22T03:54:50Z) - Simple Pooling Front-ends For Efficient Audio Classification [56.59107110017436]
入力音声特徴量における時間的冗長性を排除することは,効率的な音声分類に有効な方法である可能性が示唆された。
本稿では、単純な非パラメトリックプーリング操作を用いて冗長な情報を削減する単純なプールフロントエンド(SimPFs)のファミリーを提案する。
SimPFは、市販オーディオニューラルネットワークの浮動小数点演算数の半数以上を削減できる。
論文 参考訳(メタデータ) (2022-10-03T14:00:41Z) - FullSubNet+: Channel Attention FullSubNet with Complex Spectrograms for
Speech Enhancement [43.477179521051355]
本稿では,FullSubNet+と呼ばれる拡張シングルチャネルリアルタイム音声強調フレームワークを提案する。
DNS Challengeデータセットの実験結果は、FullSubNet+の優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-03-23T04:33:09Z) - Digital Beamforming Robust to Time-Varying Carrier Frequency Offset [21.18926642388997]
時変キャリア周波数オフセットから発生する信号の破損に頑健な新しいビームフォーミングアルゴリズムを提案する。
パイロットと干渉器信号に未知の時変周波数ドリフトが存在する場合に干渉をキャンセルできる重みベクトルを設計するための2つの原子ノルム最小化(anm)方式を提案する。
論文 参考訳(メタデータ) (2021-03-08T18:08:56Z) - CITISEN: A Deep Learning-Based Speech Signal-Processing Mobile
Application [63.2243126704342]
本研究では,CitisENと呼ばれる深層学習に基づく音声信号処理モバイルアプリケーションを提案する。
CitisENは、音声強調(SE)、モデル適応(MA)、背景雑音変換(BNC)の3つの機能を提供している。
雑音の多い音声信号と比較すると、改良された音声信号の約6%と33%の改善が達成された。
論文 参考訳(メタデータ) (2020-08-21T02:04:12Z) - Improving Stability of LS-GANs for Audio and Speech Signals [70.15099665710336]
このベクトル空間で計算された正規性からジェネレータ最適化の定式化への切り離しの符号化は、より包括的な分光図を作成するのに役立つことを示す。
本手法をベースラインGANと比較してモード崩壊の少ないトレーニングにおける安定性向上に有効であることを示す。
論文 参考訳(メタデータ) (2020-08-12T17:41:25Z) - Simultaneous Denoising and Dereverberation Using Deep Embedding Features [64.58693911070228]
ディープ埋め込み特徴を用いた同時発声・発声同時学習法を提案する。
ノイズ発生段階では、DCネットワークを利用してノイズのないディープ埋込み特性を抽出する。
残響段階では、教師なしのK平均クラスタリングアルゴリズムの代わりに、別のニューラルネットワークを用いて無響音声を推定する。
論文 参考訳(メタデータ) (2020-04-06T06:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。