論文の概要: SepMamba: State-space models for speaker separation using Mamba
- arxiv url: http://arxiv.org/abs/2410.20997v1
- Date: Mon, 28 Oct 2024 13:20:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:20:17.093430
- Title: SepMamba: State-space models for speaker separation using Mamba
- Title(参考訳): SepMamba:Mambaを用いた話者分離のための状態空間モデル
- Authors: Thor Højhus Avenstrup, Boldizsár Elek, István László Mádi, András Bence Schin, Morten Mørup, Bjørn Sand Jensen, Kenny Falkær Olsen,
- Abstract要約: 本稿では,主に双方向のMamba層で構成されたU-NetベースのアーキテクチャであるSepMambaを提案する。
このアプローチは、WSJ0 2-Speakerデータセットにおいて、同様の大きさの顕著なモデルよりも優れています。
- 参考スコア(独自算出の注目度): 2.840381306234341
- License:
- Abstract: Deep learning-based single-channel speaker separation has improved significantly in recent years largely due to the introduction of the transformer-based attention mechanism. However, these improvements come at the expense of intense computational demands, precluding their use in many practical applications. As a computationally efficient alternative with similar modeling capabilities, Mamba was recently introduced. We propose SepMamba, a U-Net-based architecture composed primarily of bidirectional Mamba layers. We find that our approach outperforms similarly-sized prominent models - including transformer-based models - on the WSJ0 2-speaker dataset while enjoying a significant reduction in computational cost, memory usage, and forward pass time. We additionally report strong results for causal variants of SepMamba. Our approach provides a computationally favorable alternative to transformer-based architectures for deep speech separation.
- Abstract(参考訳): 近年, 深層学習に基づく単一チャネル話者分離は, 変圧器を用いたアテンション機構の導入により大幅に改善されている。
しかし、これらの改善は、多くの実用的な応用での使用を前にして、厳しい計算要求を犠牲にしている。
同様のモデリング機能を備えた計算効率の良い代替品として、最近Mambaが導入された。
本稿では,主に双方向のMamba層で構成されたU-NetベースのアーキテクチャであるSepMambaを提案する。
提案手法は,計算コスト,メモリ使用量,前方通過時間を大幅に削減しつつ,WSJ02話者データセット上で,トランスフォーマーベースモデルを含む同様のサイズの顕著なモデルよりも優れていることがわかった。
また,セプマンバの因果変異について強い結果を報告する。
我々の手法は、深層音声分離のためのトランスフォーマーベースのアーキテクチャに代わる、計算に有利な代替手段を提供する。
関連論文リスト
- MatIR: A Hybrid Mamba-Transformer Image Restoration Model [95.17418386046054]
そこで我々は,MatIRと呼ばれるMamba-Transformerハイブリッド画像復元モデルを提案する。
MatIRはTransformer層とMamba層のブロックをクロスサイクルして特徴を抽出する。
Mambaモジュールでは、4つのスキャンパスに沿って横断するImage Inpainting State Space (IRSS)モジュールを導入する。
論文 参考訳(メタデータ) (2025-01-30T14:55:40Z) - U-Mamba-Net: A highly efficient Mamba-based U-net style network for noisy and reverberant speech separation [0.0]
複雑な環境下での音声分離のための軽量なマンバベースUスタイルモデルU-mamba-netを提案する。
Mambaは、特徴選択機能を組み込んだ状態空間シーケンスモデルである。Uスタイルのネットワークは、対称収縮と拡張パスがマルチ解像度機能を学ぶことができる完全な畳み込みニューラルネットワークである。
論文 参考訳(メタデータ) (2024-12-24T06:51:21Z) - Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement [54.427965535613886]
Mambaは、新しいステートスペースモデル(SSM)として、自然言語処理やコンピュータビジョンに広く応用されている。
本稿では,MambaとU-Net for SEタスクを統合する革新的なアーキテクチャであるMamba-SEUNetを紹介する。
論文 参考訳(メタデータ) (2024-12-21T13:43:51Z) - MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - ReMamba: Equip Mamba with Effective Long-Sequence Modeling [50.530839868893786]
本研究では,長い文脈の理解能力を高めるReMambaを提案する。
ReMambaは2段階のプロセスで選択的圧縮と適応のテクニックを取り入れている。
論文 参考訳(メタデータ) (2024-08-28T02:47:27Z) - Transformers to SSMs: Distilling Quadratic Knowledge to Subquadratic Models [92.36510016591782]
本稿では,事前学習したトランスフォーマーアーキテクチャを,状態空間モデル(SSM)などの代替アーキテクチャに蒸留する手法を提案する。
提案手法はMOHAWKと呼ばれ、3Bトークンと5Bトークンを用いたハイブリッドバージョン(Hybrid Phi-Mamba)を用いてPhi-1.5アーキテクチャに基づくMamba-2変異体を蒸留することができる。
Phi-Mambaは、スクラッチからモデルのトレーニングに使用されるトレーニングデータの1%未満を使用してはいるが、過去のオープンソース非トランスフォーマーモデルと比較して、大幅にパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-08-19T17:48:11Z) - How Effective are State Space Models for Machine Translation? [19.509486069758495]
トランスフォーマーは現在のNLPのアーキテクチャとして選択されているが、注意層は長いコンテキストではスケールしない。
最近の研究は、注意を線形リカレント層に置き換えることを提案する。
これらのモデルが機械翻訳においてトランスフォーマーと競合するかどうかは不明である。
論文 参考訳(メタデータ) (2024-07-07T20:21:49Z) - Demystify Mamba in Vision: A Linear Attention Perspective [72.93213667713493]
Mambaは線形計算複雑性を持つ効率的な状態空間モデルである。
我々は,Mambaが線形アテンショントランスフォーマーと驚くほど類似していることを示す。
本稿では,これら2つの鍵設計の利点を線形注意に取り入れた,マンバインスパイアされた線形注意(MILA)モデルを提案する。
論文 参考訳(メタデータ) (2024-05-26T15:31:09Z) - SPMamba: State-space model is all you need in speech separation [20.168153319805665]
CNNベースの音声分離モデルは、局所的な受容的場制限に直面し、長期間の依存関係を効果的にキャプチャできない。
本稿では,SPMambaという音声分離手法を提案する。
このモデルは、TF-GridNetアーキテクチャに基づいており、従来のBLSTMモジュールを双方向のMambaモジュールに置き換えている。
論文 参考訳(メタデータ) (2024-04-02T16:04:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。