論文の概要: SPMamba: State-space model is all you need in speech separation
- arxiv url: http://arxiv.org/abs/2404.02063v2
- Date: Tue, 10 Sep 2024 14:02:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 23:13:57.721637
- Title: SPMamba: State-space model is all you need in speech separation
- Title(参考訳): SPMamba: ステートスペースモデルは音声分離に必要なもの
- Authors: Kai Li, Guo Chen, Runxuan Yang, Xiaolin Hu,
- Abstract要約: CNNベースの音声分離モデルは、局所的な受容的場制限に直面し、長期間の依存関係を効果的にキャプチャできない。
本稿では,SPMambaという音声分離手法を提案する。
このモデルは、TF-GridNetアーキテクチャに基づいており、従来のBLSTMモジュールを双方向のMambaモジュールに置き換えている。
- 参考スコア(独自算出の注目度): 20.168153319805665
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing CNN-based speech separation models face local receptive field limitations and cannot effectively capture long time dependencies. Although LSTM and Transformer-based speech separation models can avoid this problem, their high complexity makes them face the challenge of computational resources and inference efficiency when dealing with long audio. To address this challenge, we introduce an innovative speech separation method called SPMamba. This model builds upon the robust TF-GridNet architecture, replacing its traditional BLSTM modules with bidirectional Mamba modules. These modules effectively model the spatiotemporal relationships between the time and frequency dimensions, allowing SPMamba to capture long-range dependencies with linear computational complexity. Specifically, the bidirectional processing within the Mamba modules enables the model to utilize both past and future contextual information, thereby enhancing separation performance. Extensive experiments conducted on public datasets, including WSJ0-2Mix, WHAM!, and Libri2Mix, as well as the newly constructed Echo2Mix dataset, demonstrated that SPMamba significantly outperformed existing state-of-the-art models, achieving superior results while also reducing computational complexity. These findings highlighted the effectiveness of SPMamba in tackling the intricate challenges of speech separation in complex environments.
- Abstract(参考訳): 既存のCNNベースの音声分離モデルは、局所的な受容的場制限に直面しており、長期間の依存関係を効果的にキャプチャできない。
LSTMとトランスフォーマーに基づく音声分離モデルはこの問題を回避することができるが、その複雑さが高いため、長い音声を扱う際の計算資源と推論効率の課題に直面している。
この課題に対処するために,SPMambaと呼ばれる革新的な音声分離手法を提案する。
このモデルは、TF-GridNetアーキテクチャに基づいており、従来のBLSTMモジュールを双方向のMambaモジュールに置き換えている。
これらのモジュールは時間と周波数次元の時空間関係を効果的にモデル化し、SPMambaは線形計算複雑性で長距離依存を捉えることができる。
具体的には,Mambaモジュール内の双方向処理により,過去のコンテキスト情報と将来のコンテキスト情報の両方を利用することが可能となり,分離性能が向上する。
WSJ0-2Mix、WHAM!、Libri2Mixなどの公開データセットと、新たに構築されたEcho2Mixデータセットを含む大規模な実験は、SPMambaが既存の最先端モデルを大幅に上回っており、計算複雑性を低減しつつ、優れた結果を達成することを実証した。
これらの結果は,複雑な環境下での音声分離の難しさに対処する上で,SPMambaの有効性を浮き彫りにした。
関連論文リスト
- DiffImp: Efficient Diffusion Model for Probabilistic Time Series Imputation with Bidirectional Mamba Backbone [6.428451261614519]
現在のDDPMに基づく確率的時系列計算手法は2種類の課題に直面している。
計算効率の良い状態空間モデルであるMambaをDDPMのバックボーンデノシングモジュールとして統合する。
提案手法では,複数のデータセット,異なるシナリオ,欠落率に対して,最先端の時系列計算結果が得られる。
論文 参考訳(メタデータ) (2024-10-17T08:48:52Z) - PPMamba: A Pyramid Pooling Local Auxiliary SSM-Based Model for Remote Sensing Image Semantic Segmentation [1.5136939451642137]
本稿では,CNN と Mamba を統合し,セマンティックセグメンテーションタスクを実現する新しいネットワークである Pyramid Pooling Mamba (PPMamba) を提案する。
PPMambaは最先端のモデルに比べて競争力がある。
論文 参考訳(メタデータ) (2024-09-10T08:08:50Z) - Bidirectional Gated Mamba for Sequential Recommendation [56.85338055215429]
最近の進歩であるMambaは、時系列予測において例外的なパフォーマンスを示した。
SIGMA(Selective Gated Mamba)と呼ばれる,シークエンシャルレコメンデーションのための新しいフレームワークを紹介する。
以上の結果から,SIGMAは5つの実世界のデータセットにおいて,現在のモデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-08-21T09:12:59Z) - LaMamba-Diff: Linear-Time High-Fidelity Diffusion Models Based on Local Attention and Mamba [54.85262314960038]
局所的意図的マンバブロックは、大域的コンテキストと局所的詳細の両方を線形複雑性でキャプチャする。
このモデルは, 256x256の解像度で, ImageNet上の様々なモデルスケールでDiTの性能を上回り, 優れたスケーラビリティを示す。
ImageNet 256x256 と 512x512 の最先端拡散モデルと比較すると,最大 62% GFLOP の削減など,我々の最大のモデルには顕著な利点がある。
論文 参考訳(メタデータ) (2024-08-05T16:39:39Z) - FMamba: Mamba based on Fast-attention for Multivariate Time-series Forecasting [6.152779144421304]
多変量時系列予測(MTSF)のためのFMambaという新しいフレームワークを導入する。
技術的には、まず、埋め込み層を介して入力変数の時間的特徴を抽出し、次に高速アテンションモジュールを介して入力変数間の依存関係を計算する。
多層パーセプトロンブロック(MLP-block)を通して入力特徴を選択的に扱い、変数の時間的依存関係を抽出する。
最後に、FMambaは、線形層であるプロジェクターを通して予測結果を得る。
論文 参考訳(メタデータ) (2024-07-20T09:14:05Z) - MambaForGCN: Enhancing Long-Range Dependency with State Space Model and Kolmogorov-Arnold Networks for Aspect-Based Sentiment Analysis [0.6885635732944716]
ABSA(MambaForGCN)におけるアスペクトと意見語間の長距離依存性を高める新しいアプローチを提案する。
3つのベンチマークデータセットの実験結果は、MambaForGCNの有効性を示し、最先端(SOTA)ベースラインモデルを上回っている。
論文 参考訳(メタデータ) (2024-07-14T22:23:07Z) - DeciMamba: Exploring the Length Extrapolation Potential of Mamba [89.07242846058023]
本研究では,マンバに特化して設計された文脈拡張手法であるDeciMambaを紹介する。
DeciMambaは、トレーニング中に見たものよりも25倍長く、余分な計算資源を使わずに、コンテキスト長を外挿できることを示す。
論文 参考訳(メタデータ) (2024-06-20T17:40:18Z) - Decision Mamba: A Multi-Grained State Space Model with Self-Evolution Regularization for Offline RL [57.202733701029594]
決定マンバ(Decision Mamba)は、自己進化的な政策学習戦略を持つ、新しい多粒状態空間モデルである。
雑音性軌道上における過度に適合する問題を緩和するために,進行正則化を用いて自己進化政策を提案する。
この政策は、自身の過去の知識を用いて、準最適動作を洗練させ、ノイズの多い実演における堅牢性を高めることで進化する。
論文 参考訳(メタデータ) (2024-06-08T10:12:00Z) - MambaMixer: Efficient Selective State Space Models with Dual Token and Channel Selection [5.37935922811333]
MambaMixerは、トークンとチャネル間の二重選択機構を使用する、データ依存の重みを持つ新しいアーキテクチャである。
概念実証として,Vision MambaMixer (ViM2) とTime Series MambaMixer (TSM2) を設計した。
論文 参考訳(メタデータ) (2024-03-29T00:05:13Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。