論文の概要: U-Mamba-Net: A highly efficient Mamba-based U-net style network for noisy and reverberant speech separation
- arxiv url: http://arxiv.org/abs/2412.18217v1
- Date: Tue, 24 Dec 2024 06:51:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-25 15:51:31.118565
- Title: U-Mamba-Net: A highly efficient Mamba-based U-net style network for noisy and reverberant speech separation
- Title(参考訳): U-Mamba-Net: 雑音と残響分離のための高効率なMamba-based U-netスタイルネットワーク
- Authors: Shaoxiang Dang, Tetsuya Matsumoto, Yoshinori Takeuchi, Hiroaki Kudo,
- Abstract要約: 複雑な環境下での音声分離のための軽量なマンバベースUスタイルモデルU-mamba-netを提案する。
Mambaは、特徴選択機能を組み込んだ状態空間シーケンスモデルである。Uスタイルのネットワークは、対称収縮と拡張パスがマルチ解像度機能を学ぶことができる完全な畳み込みニューラルネットワークである。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The topic of speech separation involves separating mixed speech with multiple overlapping speakers into several streams, with each stream containing speech from only one speaker. Many highly effective models have emerged and proliferated rapidly over time. However, the size and computational load of these models have also increased accordingly. This is a disaster for the community, as researchers need more time and computational resources to reproduce and compare existing models. In this paper, we propose U-mamba-net: a lightweight Mamba-based U-style model for speech separation in complex environments. Mamba is a state space sequence model that incorporates feature selection capabilities. U-style network is a fully convolutional neural network whose symmetric contracting and expansive paths are able to learn multi-resolution features. In our work, Mamba serves as a feature filter, alternating with U-Net. We test the proposed model on Libri2mix. The results show that U-Mamba-Net achieves improved performance with quite low computational cost.
- Abstract(参考訳): 音声分離のトピックは、複数の重なり合う話者との混合音声を複数のストリームに分割することであり、各ストリームは1つの話者からのみ音声を含む。
多くの非常に効果的なモデルが出現し、時間とともに急速に成長してきた。
しかし,これらのモデルのサイズや計算負荷も増大している。
研究者は既存のモデルを再現し比較するためにより多くの時間と計算資源を必要とするため、これはコミュニティにとって惨事である。
本稿では,複雑な環境下での発話分離のための軽量なマンバベースUスタイルモデルであるU-mamba-netを提案する。
Mambaは、機能選択機能を備えた状態空間シーケンスモデルである。
Uスタイルのネットワークは完全な畳み込みニューラルネットワークであり、対称収縮と拡張経路は多解像度の特徴を学習することができる。
私たちの仕事では、MambaはU-Netと交互に機能フィルターとして機能します。
We test the proposed model on Libri2mix。
その結果,U-Mamba-Netは計算コストを極めて低くして性能の向上を実現していることがわかった。
関連論文リスト
- Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement [54.427965535613886]
Mambaは、新しいステートスペースモデル(SSM)として、自然言語処理やコンピュータビジョンに広く応用されている。
本稿では,MambaとU-Net for SEタスクを統合する革新的なアーキテクチャであるMamba-SEUNetを紹介する。
論文 参考訳(メタデータ) (2024-12-21T13:43:51Z) - MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - SepMamba: State-space models for speaker separation using Mamba [2.840381306234341]
本稿では,主に双方向のMamba層で構成されたU-NetベースのアーキテクチャであるSepMambaを提案する。
このアプローチは、WSJ0 2-Speakerデータセットにおいて、同様の大きさの顕著なモデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-28T13:20:53Z) - LaMamba-Diff: Linear-Time High-Fidelity Diffusion Models Based on Local Attention and Mamba [54.85262314960038]
局所的意図的マンバブロックは、大域的コンテキストと局所的詳細の両方を線形複雑性でキャプチャする。
このモデルは, 256x256の解像度で, ImageNet上の様々なモデルスケールでDiTの性能を上回り, 優れたスケーラビリティを示す。
ImageNet 256x256 と 512x512 の最先端拡散モデルと比較すると,最大 62% GFLOP の削減など,我々の最大のモデルには顕著な利点がある。
論文 参考訳(メタデータ) (2024-08-05T16:39:39Z) - Speech Slytherin: Examining the Performance and Efficiency of Mamba for Speech Separation, Recognition, and Synthesis [18.68317727349427]
Mambaがトランスフォーマーのより良い代替品だと結論付けるには早すぎる。
我々は,3つのタスクに対して,Mamba-TasNet,ConMamba,VALL-Mの3つのモデルを評価する。
論文 参考訳(メタデータ) (2024-07-13T00:35:21Z) - SSAMBA: Self-Supervised Audio Representation Learning with Mamba State Space Model [12.399378490833818]
Self-Supervised Audio Mamba (SSAMBA) は、音声表現学習のための最初の自己監督型、注意なし、およびSSMベースのモデルである。
以上の結果から,SSAMBAはSSAST(Self-Supervised Audio Spectrogram Transformer)よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-05-20T06:58:47Z) - ReMamber: Referring Image Segmentation with Mamba Twister [51.291487576255435]
ReMamberは、マルチモーダルなMamba TwisterブロックとMambaのパワーを統合する新しいRISアーキテクチャである。
Mamba Twisterは画像とテキストのインタラクションを明示的にモデル化し、独自のチャネルと空間的ツイスト機構を通じてテキストと視覚的特徴を融合する。
論文 参考訳(メタデータ) (2024-03-26T16:27:37Z) - Swin-UMamba: Mamba-based UNet with ImageNet-based pretraining [85.08169822181685]
本稿では,医療画像のセグメンテーションに特化して設計された新しいマンバモデルSwin-UMambaを紹介する。
Swin-UMamba は CNN や ViT,最新の Mamba ベースのモデルと比較して,優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-05T18:58:11Z) - BlackMamba: Mixture of Experts for State-Space Models [10.209192169793772]
状態空間モデル(SSM)は、最近、大規模な言語モデリングベンチマークでトランスフォーマーと競合する性能を示した。
MoEモデルは、計算コストと遅延コストを大幅に削減しながら、顕著なパフォーマンスを示している。
我々は,Mamba SSMとMoEを組み合わせた新しいアーキテクチャであるBlackMambaを紹介した。
論文 参考訳(メタデータ) (2024-02-01T07:15:58Z) - MambaByte: Token-free Selective State Space Model [71.90159903595514]
マンババイト(英: MambaByte)は、マンバSSMがバイト配列で自己回帰的に訓練したトークンレス適応である。
MambaByteは、言語モデリングタスクにおいて、最先端のサブワードトランスフォーマーよりも優れています。
論文 参考訳(メタデータ) (2024-01-24T18:53:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。