論文の概要: MambAttention: Mamba with Multi-Head Attention for Generalizable Single-Channel Speech Enhancement
- arxiv url: http://arxiv.org/abs/2507.00966v1
- Date: Tue, 01 Jul 2025 17:16:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.748628
- Title: MambAttention: Mamba with Multi-Head Attention for Generalizable Single-Channel Speech Enhancement
- Title(参考訳): MambAttention: 一般化可能な単一チャネル音声強調のためのマルチヘッドアテンションを持つMamba
- Authors: Nikolai Lund Kühne, Jesper Jensen, Jan Østergaard, Zheng-Hua Tan,
- Abstract要約: 本稿では,Mambaと時間・周波数・マルチヘッドアテンションモジュールを組み合わせた新しいハイブリッドアーキテクチャMambAttentionを提案する。
提案するMambAttentionモデルは,既存の最先端LSTM-, xLSTM-, Mamba-, Conformerベースのシステムよりも優れている。
- 参考スコア(独自算出の注目度): 19.76560732937885
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: With the advent of new sequence models like Mamba and xLSTM, several studies have shown that these models match or outperform state-of-the-art models in single-channel speech enhancement, automatic speech recognition, and self-supervised audio representation learning. However, prior research has demonstrated that sequence models like LSTM and Mamba tend to overfit to the training set. To address this issue, previous works have shown that adding self-attention to LSTMs substantially improves generalization performance for single-channel speech enhancement. Nevertheless, neither the concept of hybrid Mamba and time-frequency attention models nor their generalization performance have been explored for speech enhancement. In this paper, we propose a novel hybrid architecture, MambAttention, which combines Mamba and shared time- and frequency-multi-head attention modules for generalizable single-channel speech enhancement. To train our model, we introduce VoiceBank+Demand Extended (VB-DemandEx), a dataset inspired by VoiceBank+Demand but with more challenging noise types and lower signal-to-noise ratios. Trained on VB-DemandEx, our proposed MambAttention model significantly outperforms existing state-of-the-art LSTM-, xLSTM-, Mamba-, and Conformer-based systems of similar complexity across all reported metrics on two out-of-domain datasets: DNS 2020 and EARS-WHAM_v2, while matching their performance on the in-domain dataset VB-DemandEx. Ablation studies highlight the role of weight sharing between the time- and frequency-multi-head attention modules for generalization performance. Finally, we explore integrating the shared time- and frequency-multi-head attention modules with LSTM and xLSTM, which yields a notable performance improvement on the out-of-domain datasets. However, our MambAttention model remains superior on both out-of-domain datasets across all reported evaluation metrics.
- Abstract(参考訳): MambaやxLSTMのような新しいシーケンスモデルが出現すると、これらのモデルが単一チャンネル音声強調、自動音声認識、自己教師型音声表現学習において、最先端のモデルと一致するか、あるいは優れていることがいくつかの研究で示されている。
しかしながら、以前の研究では、LSTMやMambaのようなシーケンスモデルはトレーニングセットに過度に適合する傾向があることが示されている。
この問題に対処するために、LSTMに自己注意を加えることで、単一チャンネル音声強調のための一般化性能が大幅に向上することが過去の研究で示されている。
それでも、ハイブリッドマンバや時間周波数アテンションモデルの概念や、その一般化性能は、音声強調のために研究されていない。
本稿では,MambAttentionという新しいハイブリッドアーキテクチャを提案する。このアーキテクチャは,Mambaと時間と周波数の重み付きアテンションモジュールを組み合わせて,一般化可能な単一チャネル音声強調を行う。
我々のモデルをトレーニングするために、VoiceBank+Demand Extended (VB-DemandEx)を導入しました。
VB-DemandExをトレーニングし、提案したMambAttentionモデルは、既存の最先端LSTM-, xLSTM-, Mamba-, and Conformer-based systems of similar complexity on all report metrics on two out-of-domain dataset: DNS 2020 and EARS-WHAM_v2, while their performance on the in-domain dataset VB-DemandEx。
アブレーション研究は、一般化性能において、時間と周波数の多面的注意モジュール間の重み共有が果たす役割を強調している。
最後に、共有時間および周波数多重ヘッドアテンションモジュールをLSTMとxLSTMに統合し、ドメイン外のデータセットに顕著なパフォーマンス改善をもたらすことを検討する。
しかしながら、私たちのMambAttentionモデルは、報告された評価指標のすべてにわたって、ドメイン外のデータセットよりも優れています。
関連論文リスト
- Routing Mamba: Scaling State Space Models with Mixture-of-Experts Projection [88.47928738482719]
線形状態空間モデル(SSM)は、シーケンスモデリングにおいて顕著なパフォーマンス向上を提供する。
Mambaのような最近の進歩は、入力依存のゲーティングとハードウェア対応の実装により、SSMをさらに強化している。
本稿では,線形射影の専門家による疎混合を用いてSSMパラメータをスケールする新しい手法であるRoM(Roing Mamba)を紹介する。
論文 参考訳(メタデータ) (2025-06-22T19:26:55Z) - An Exploration of Mamba for Speech Self-Supervised Models [48.01992287080999]
我々はTransformerベースのSSLアーキテクチャに代わるものとして,MambaベースのHuBERTモデルを探求する。
HuBERTモデルは、計算量を大幅に削減した長文ASRの微調整を可能にする。
これらの結果から,マンバをベースとしたSSLは,時系列モデリング,リアルタイム音声モデリング,音声単位抽出において,有望かつ補完的な方向であることがわかった。
論文 参考訳(メタデータ) (2025-06-14T19:00:44Z) - xLSTM-SENet: xLSTM for Single-Channel Speech Enhancement [19.76560732937885]
本稿では,最初のxLSTMに基づく単一チャネル音声強調システムであるxLSTM-SENetを紹介する。
我々の最良のxLSTMベースモデルであるxLSTM-SENet2は、Voicebank+DEMANDデータセット上で同様の複雑さを持つ最先端のMambaおよびConformerベースのシステムより優れています。
論文 参考訳(メタデータ) (2025-01-10T18:10:06Z) - Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement [54.427965535613886]
Mambaは、新しいステートスペースモデル(SSM)として、自然言語処理やコンピュータビジョンに広く応用されている。
本稿では,MambaとU-Net for SEタスクを統合する革新的なアーキテクチャであるMamba-SEUNetを紹介する。
論文 参考訳(メタデータ) (2024-12-21T13:43:51Z) - UniRAG: Universal Retrieval Augmentation for Large Vision Language Models [76.30799731147589]
そこで,UniRAGというプラグイン・アンド・プレイ技術を紹介した。
Retrieval Augmentation(RA)は、主に非一般的なエンティティの生成や理解を改善するという一般的な信念とは異なり、MSCOCOデータセットの共通エンティティによる評価結果は、プロプライエタリモデルとより小さなオープンソースモデルの両方が生成品質を著しく向上させることを示している。
論文 参考訳(メタデータ) (2024-05-16T17:58:45Z) - MambaMixer: Efficient Selective State Space Models with Dual Token and Channel Selection [5.37935922811333]
MambaMixerは、トークンとチャネル間の二重選択機構を使用する、データ依存の重みを持つ新しいアーキテクチャである。
概念実証として,Vision MambaMixer (ViM2) とTime Series MambaMixer (TSM2) を設計した。
論文 参考訳(メタデータ) (2024-03-29T00:05:13Z) - Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。
複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。
我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-30T22:44:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。