論文の概要: Exploring Resolution-Wise Shared Attention in Hybrid Mamba-U-Nets for Improved Cross-Corpus Speech Enhancement
- arxiv url: http://arxiv.org/abs/2510.01958v1
- Date: Thu, 02 Oct 2025 12:27:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 14:32:17.272203
- Title: Exploring Resolution-Wise Shared Attention in Hybrid Mamba-U-Nets for Improved Cross-Corpus Speech Enhancement
- Title(参考訳): クロスコーパス音声強調のためのハイブリットマンバ-U-ネットにおける高分解能度共有注意の探索
- Authors: Nikolai Lund Kühne, Jesper Jensen, Jan Østergaard, Zheng-Hua Tan,
- Abstract要約: 本稿では,Mambaとマルチヘッドアテンションを組み合わせたハイブリッドモデルであるRWSA-MambaUNetを提案する。
我々の最も優れたRWSA-MambaUNetモデルは、ドメイン外の2つのテストセットにおける最先端の一般化性能を達成する。
- 参考スコア(独自算出の注目度): 26.526517674876086
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Recent advances in speech enhancement have shown that models combining Mamba and attention mechanisms yield superior cross-corpus generalization performance. At the same time, integrating Mamba in a U-Net structure has yielded state-of-the-art enhancement performance, while reducing both model size and computational complexity. Inspired by these insights, we propose RWSA-MambaUNet, a novel and efficient hybrid model combining Mamba and multi-head attention in a U-Net structure for improved cross-corpus performance. Resolution-wise shared attention (RWSA) refers to layerwise attention-sharing across corresponding time- and frequency resolutions. Our best-performing RWSA-MambaUNet model achieves state-of-the-art generalization performance on two out-of-domain test sets. Notably, our smallest model surpasses all baselines on the out-of-domain DNS 2020 test set in terms of PESQ, SSNR, and ESTOI, and on the out-of-domain EARS-WHAM_v2 test set in terms of SSNR, ESTOI, and SI-SDR, while using less than half the model parameters and a fraction of the FLOPs.
- Abstract(参考訳): 近年の音声強調では,マンバとアテンション機構を組み合わせたモデルにより,クロスコーパスの一般化性能が向上することが示されている。
同時に、U-Net構造にMambaを統合することで、モデルサイズと計算複雑性の両方を低減しつつ、最先端の強化性能が得られる。
これらの知見にインスパイアされたRWSA-MambaUNetは,Mambaとマルチヘッドアテンションを組み合わせた新規かつ効率的なハイブリッドモデルである。
RWSA(Resolution-wise Share attention)とは、時間と周波数の解像度をまたいだ階層的なアテンション共有を指す。
我々の最も優れたRWSA-MambaUNetモデルは、ドメイン外の2つのテストセットにおける最先端の一般化性能を達成する。
特に、私たちの最小のモデルは、PESQ、SSNR、ESTOIの領域外DNS 2020テストセットと、SSNR、ESTOI、SI-SDRの領域外EARS-WHAM_v2テストセットの領域外DNS 2020テストセットのベースラインをはるかに上回ります。
関連論文リスト
- MambAttention: Mamba with Multi-Head Attention for Generalizable Single-Channel Speech Enhancement [26.526517674876086]
本稿では,Mambaと時間・周波数・マルチヘッドアテンションモジュールを組み合わせた新しいハイブリッドアーキテクチャMambAttentionを提案する。
提案するMambAttentionモデルは,既存の最先端LSTM-, xLSTM-, Mamba-, Conformerベースのシステムよりも優れている。
論文 参考訳(メタデータ) (2025-07-01T17:16:05Z) - Routing Mamba: Scaling State Space Models with Mixture-of-Experts Projection [88.47928738482719]
線形状態空間モデル(SSM)は、シーケンスモデリングにおいて顕著なパフォーマンス向上を提供する。
Mambaのような最近の進歩は、入力依存のゲーティングとハードウェア対応の実装により、SSMをさらに強化している。
本稿では,線形射影の専門家による疎混合を用いてSSMパラメータをスケールする新しい手法であるRoM(Roing Mamba)を紹介する。
論文 参考訳(メタデータ) (2025-06-22T19:26:55Z) - RD-UIE: Relation-Driven State Space Modeling for Underwater Image Enhancement [59.364418120895]
水中画像強調(UIE)は、海洋視覚応用のための重要な前処理ステップである。
実効UIE(RD-UIE)のための新しい関係駆動型マンバフレームワークを開発した。
水中強化ベンチマークの実験では、RD-UIEは最先端のアプローチであるWMambaよりも優れていた。
論文 参考訳(メタデータ) (2025-05-02T12:21:44Z) - Samba-ASR: State-Of-The-Art Speech Recognition Leveraging Structured State-Space Models [0.0]
我々は,新しいマンバアーキテクチャをエンコーダとデコーダの両方として活用した,アート音声認識(ASR)モデルの第一の状態であるSamba ASRを提案する。
Samba ASRは、効率的な状態空間力学を用いて、局所的および大域的時間的依存関係をモデル化する。
Samba ASRは、様々な標準ベンチマークで既存のオープンソーストランスフォーマーベースのASRモデルを上回っている。
論文 参考訳(メタデータ) (2025-01-06T08:16:06Z) - Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement [54.427965535613886]
Mambaは、新しいステートスペースモデル(SSM)として、自然言語処理やコンピュータビジョンに広く応用されている。
本稿では,MambaとU-Net for SEタスクを統合する革新的なアーキテクチャであるMamba-SEUNetを紹介する。
論文 参考訳(メタデータ) (2024-12-21T13:43:51Z) - ReMamba: Equip Mamba with Effective Long-Sequence Modeling [50.530839868893786]
本研究では,長い文脈の理解能力を高めるReMambaを提案する。
ReMambaは2段階のプロセスで選択的圧縮と適応のテクニックを取り入れている。
論文 参考訳(メタデータ) (2024-08-28T02:47:27Z) - iiANET: Inception Inspired Attention Hybrid Network for efficient Long-Range Dependency [0.5497663232622965]
iANETは、長距離依存のモデリングを改善するために設計された、効率的なハイブリッド視覚バックボーンである。
iiANETの中核となる革新は、iiABlockである。これは、グローバルなr-MHSA(Multi-Head Self-Attention)とパリルルにおける畳み込みレイヤを内部で記述する、統一されたビルディングブロックである。
論文 参考訳(メタデータ) (2024-07-10T12:39:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。