論文の概要: An Investigation of Incorporating Mamba for Speech Enhancement
- arxiv url: http://arxiv.org/abs/2405.06573v2
- Date: Tue, 07 Oct 2025 07:07:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-27 22:13:08.804964
- Title: An Investigation of Incorporating Mamba for Speech Enhancement
- Title(参考訳): 音声強調のための組み込み型マンバの検討
- Authors: Rong Chao, Wen-Huang Cheng, Moreno La Quatra, Sabato Marco Siniscalchi, Chao-Han Huck Yang, Szu-Wei Fu, Yu Tsao,
- Abstract要約: 本研究の目的は、最近提案された、注意のないスケーラブルな状態空間モデル(SSM)であるMambaを用いて、音声強調(SE)タスクを実現することである。
私たちはMambaを使って,基本,先進,因果,非因果といった,さまざまな構成のレグレッションベースのSEモデル(SEMamba)をデプロイしています。
SEMambaはVoiceBank-DEMANDデータセットで3.55のPESQを獲得し、高度な非因果構成を持つ。
- 参考スコア(独自算出の注目度): 64.59903328820624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work aims to investigate the use of a recently proposed, attention-free, scalable state-space model (SSM), Mamba, for the speech enhancement (SE) task. In particular, we employ Mamba to deploy different regression-based SE models (SEMamba) with different configurations, namely basic, advanced, causal, and non-causal. Furthermore, loss functions either based on signal-level distances or metric-oriented are considered. Experimental evidence shows that SEMamba attains a competitive PESQ of 3.55 on the VoiceBank-DEMAND dataset with the advanced, non-causal configuration. A new state-of-the-art PESQ of 3.69 is also reported when SEMamba is combined with Perceptual Contrast Stretching (PCS). Compared against Transformed-based equivalent SE solutions, a noticeable FLOPs reduction up to ~12% is observed with the advanced non-causal configurations. Finally, SEMamba can be used as a pre-processing step before automatic speech recognition (ASR), showing competitive performance against recent SE solutions.
- Abstract(参考訳): 本研究の目的は、最近提案された、注意のないスケーラブルな状態空間モデル(SSM)であるMambaを用いて、音声強調(SE)タスクを実現することである。
特に、さまざまな回帰ベースのSEモデル(SEMamba)をベーシック、アドバンス、因果、非因果といった異なる構成でデプロイするために、Mambaを使用します。
さらに、信号レベル距離や距離指向の損失関数も検討する。
実験的な証拠は、SEMambaがVoiceBank-DEMANDデータセット上で、高度な非因果的な構成で3.55の競合PSSQを達成したことを示している。
SEMamba と Perceptual Contrast Stretching (PCS) を組み合わせると、3.69 の最先端 PESQ が報告される。
変換型等価SE解と比較すると、高度な非因果構成ではFLOPsの最大12%の減少が観察される。
最後に、SEMambaは自動音声認識(ASR)の前に前処理ステップとして使用することができ、最近のSEソリューションと競合する性能を示す。
関連論文リスト
- Mamba-OTR: a Mamba-based Solution for Online Take and Release Detection from Untrimmed Egocentric Video [57.805927523341516]
Mamba-OTRは、短いビデオクリップでトレーニングしながら、推論中に時間的再発を利用するように設計されている。
Mamba-OTRは、スライドウインドウ方式で動作する際に、注目すべきmp-mAP45.48を達成する。
我々は,今後の研究を支援するため,Mamba-OTRのソースコードを公開します。
論文 参考訳(メタデータ) (2025-07-22T08:23:51Z) - Understanding Input Selectivity in Mamba: Impact on Approximation Power, Memorization, and Associative Recall Capacity [5.116777508056307]
State-Space Models (SSM) は Transformer に代わる有望な代替手段として最近登場した。
MambaはSSM層に入力選択性を導入し(S6)、畳み込みとゲーティングをブロック定義に組み込む。
我々は,マンバにおける入力選択性の役割を軽視し,機能近似能力,長期記憶,連想記憶能力に与える影響を考察した。
論文 参考訳(メタデータ) (2025-06-13T15:38:41Z) - Mixture-of-Mamba: Enhancing Multi-Modal State-Space Models with Modality-Aware Sparsity [56.0251572416922]
状態空間モデル(SSM)は、シーケンシャルモデリングのためのトランスフォーマーの効率的な代替手段として登場した。
本稿では,Mambaブロックのモダリティ特異的パラメータ化により,モダリティを意識した疎結合を実現する新しいSSMアーキテクチャを提案する。
マルチモーダル事前学習環境におけるMixture-of-Mambaの評価を行った。
論文 参考訳(メタデータ) (2025-01-27T18:35:05Z) - Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement [54.427965535613886]
Mambaは、新しいステートスペースモデル(SSM)として、自然言語処理やコンピュータビジョンに広く応用されている。
本稿では,MambaとU-Net for SEタスクを統合する革新的なアーキテクチャであるMamba-SEUNetを紹介する。
論文 参考訳(メタデータ) (2024-12-21T13:43:51Z) - ReMamba: Equip Mamba with Effective Long-Sequence Modeling [50.530839868893786]
本研究では,長い文脈の理解能力を高めるReMambaを提案する。
ReMambaは2段階のプロセスで選択的圧縮と適応のテクニックを取り入れている。
論文 参考訳(メタデータ) (2024-08-28T02:47:27Z) - MambaVision: A Hybrid Mamba-Transformer Vision Backbone [54.965143338206644]
本稿では,視覚応用に適した新しいハイブリッド型Mamba-TransformerバックボーンであるMambaVisionを提案する。
私たちのコアコントリビューションには、視覚的特徴の効率的なモデリング能力を高めるために、Mambaの定式化を再設計することが含まれています。
視覚変換器(ViT)とマンバの統合可能性に関する包括的アブレーション研究を行う。
論文 参考訳(メタデータ) (2024-07-10T23:02:45Z) - Q-Mamba: On First Exploration of Vision Mamba for Image Quality Assessment [15.320011514412437]
我々は、最近人気になった基礎モデルであるステートスペースモデル(State Space Model/Mamba)を、画像品質評価において初めて探求する。
本稿では,3つの重要なIQAタスクに対して,Q-Mambaモデルを再検討し適応させることにより,Q-Mambaを提案する。
提案するStylePromptは,より少ない計算コストで知覚伝達能力を向上させる。
論文 参考訳(メタデータ) (2024-06-13T19:21:01Z) - Mamba-R: Vision Mamba ALSO Needs Registers [45.41648622999754]
ビジョントランスフォーマーと同様に、視覚マンバの特徴マップにも存在しているアーティファクトを識別する。
これらのアーティファクトは、画像の低情報背景領域に出現するハイノームトークンに対応しており、Vision Mambaではより深刻に見えます。
この問題を緩和するために、私たちはVision Mambaにレジスタトークンを導入するという以前のソリューションに従います。
論文 参考訳(メタデータ) (2024-05-23T17:58:43Z) - SSAMBA: Self-Supervised Audio Representation Learning with Mamba State Space Model [12.399378490833818]
Self-Supervised Audio Mamba (SSAMBA) は、音声表現学習のための最初の自己監督型、注意なし、およびSSMベースのモデルである。
以上の結果から,SSAMBAはSSAST(Self-Supervised Audio Spectrogram Transformer)よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-05-20T06:58:47Z) - MambaOut: Do We Really Need Mamba for Vision? [70.60495392198686]
状態空間モデル(SSM)のRNNライクなトークンミキサーを備えたアーキテクチャであるMambaが最近導入され、注意機構の2次複雑さに対処した。
本論文は,マンバが長周期および自己回帰特性を有するタスクに理想的に適していることを概念的に結論づける。
我々は,コアトークンミキサーであるSSMを除去しながら,Mambaブロックを積み重ねることで,MambaOutという名前の一連のモデルを構築する。
論文 参考訳(メタデータ) (2024-05-13T17:59:56Z) - CLIP-Mamba: CLIP Pretrained Mamba Models with OOD and Hessian Evaluation [18.383760896304604]
本報告では,コントラッシブ・テクニカル・イメージ・プレトレーニング(CLIP)を利用したMambaモデルをトレーニングする最初の試みを紹介する。
Mambaモデル67万のパラメータは、ゼロショット分類タスクにおけるビジョントランスフォーマー(ViT)モデルと同等である。
論文 参考訳(メタデータ) (2024-04-30T09:40:07Z) - MambaByte: Token-free Selective State Space Model [71.90159903595514]
マンババイト(英: MambaByte)は、マンバSSMがバイト配列で自己回帰的に訓練したトークンレス適応である。
MambaByteは、言語モデリングタスクにおいて、最先端のサブワードトランスフォーマーよりも優れています。
論文 参考訳(メタデータ) (2024-01-24T18:53:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。