論文の概要: An Investigation of Incorporating Mamba for Speech Enhancement
- arxiv url: http://arxiv.org/abs/2405.06573v1
- Date: Fri, 10 May 2024 16:18:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-13 15:18:23.366085
- Title: An Investigation of Incorporating Mamba for Speech Enhancement
- Title(参考訳): 音声強調のための組み込み型マンバの検討
- Authors: Rong Chao, Wen-Huang Cheng, Moreno La Quatra, Sabato Marco Siniscalchi, Chao-Han Huck Yang, Szu-Wei Fu, Yu Tsao,
- Abstract要約: 我々は,マンバをベースとした回帰モデルを用いて音声信号の特徴付けと,SEMambaと呼ばれるマンバに基づくSEシステムの構築を行う。
SEMambaは有望な結果を示し、VoiceBank-DEMANDデータセットでPSSQスコアが3.55に達した。
- 参考スコア(独自算出の注目度): 45.610243349192096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work aims to study a scalable state-space model (SSM), Mamba, for the speech enhancement (SE) task. We exploit a Mamba-based regression model to characterize speech signals and build an SE system upon Mamba, termed SEMamba. We explore the properties of Mamba by integrating it as the core model in both basic and advanced SE systems, along with utilizing signal-level distances as well as metric-oriented loss functions. SEMamba demonstrates promising results and attains a PESQ score of 3.55 on the VoiceBank-DEMAND dataset. When combined with the perceptual contrast stretching technique, the proposed SEMamba yields a new state-of-the-art PESQ score of 3.69.
- Abstract(参考訳): 本研究の目的は,音声強調(SE)タスクのためのスケーラブルな状態空間モデル(SSM)であるMambaを研究することである。
我々は,マンバをベースとした回帰モデルを用いて音声信号の特徴付けと,SEMambaと呼ばれるマンバに基づくSEシステムの構築を行う。
信号レベル距離と距離指向損失関数を利用するとともに,基礎的および先進的なSEシステムにおいてコアモデルとして組み込むことにより,Mambaの特性を探求する。
SEMambaは有望な結果を示し、VoiceBank-DEMANDデータセットでPSSQスコアが3.55に達した。
知覚コントラスト伸張技術と組み合わせると、SEMambaは3.69のPESQスコアを得る。
関連論文リスト
- MambaGlue: Fast and Robust Local Feature Matching With Mamba [9.397265252815115]
そこで我々は,MambaGlueと呼ばれる,新しいMambaベースの局所特徴マッチング手法を提案する。
Mambaは最先端のアーキテクチャであり、トレーニングと推論の両方において、優れたスピードで急速に認識されるようになった。
私たちのMambaGlueは、実世界のアプリケーションにおける堅牢性と効率のバランスを達成します。
論文 参考訳(メタデータ) (2025-02-01T15:43:03Z) - Mixture-of-Mamba: Enhancing Multi-Modal State-Space Models with Modality-Aware Sparsity [56.0251572416922]
状態空間モデル(SSM)は、シーケンシャルモデリングのためのトランスフォーマーの効率的な代替手段として登場した。
本稿では,Mambaブロックのモダリティ特異的パラメータ化により,モダリティを意識した疎結合を実現する新しいSSMアーキテクチャを提案する。
マルチモーダル事前学習環境におけるMixture-of-Mambaの評価を行った。
論文 参考訳(メタデータ) (2025-01-27T18:35:05Z) - Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement [54.427965535613886]
Mambaは、新しいステートスペースモデル(SSM)として、自然言語処理やコンピュータビジョンに広く応用されている。
本稿では,MambaとU-Net for SEタスクを統合する革新的なアーキテクチャであるMamba-SEUNetを紹介する。
論文 参考訳(メタデータ) (2024-12-21T13:43:51Z) - ReMamba: Equip Mamba with Effective Long-Sequence Modeling [50.530839868893786]
本研究では,長い文脈の理解能力を高めるReMambaを提案する。
ReMambaは2段階のプロセスで選択的圧縮と適応のテクニックを取り入れている。
論文 参考訳(メタデータ) (2024-08-28T02:47:27Z) - MambaVision: A Hybrid Mamba-Transformer Vision Backbone [54.965143338206644]
本稿では,視覚応用に適した新しいハイブリッド型Mamba-TransformerバックボーンであるMambaVisionを提案する。
私たちのコアコントリビューションには、視覚的特徴の効率的なモデリング能力を高めるために、Mambaの定式化を再設計することが含まれています。
視覚変換器(ViT)とマンバの統合可能性に関する包括的アブレーション研究を行う。
論文 参考訳(メタデータ) (2024-07-10T23:02:45Z) - Q-Mamba: On First Exploration of Vision Mamba for Image Quality Assessment [15.320011514412437]
我々は、最近人気になった基礎モデルであるステートスペースモデル(State Space Model/Mamba)を、画像品質評価において初めて探求する。
本稿では,3つの重要なIQAタスクに対して,Q-Mambaモデルを再検討し適応させることにより,Q-Mambaを提案する。
提案するStylePromptは,より少ない計算コストで知覚伝達能力を向上させる。
論文 参考訳(メタデータ) (2024-06-13T19:21:01Z) - Mamba-R: Vision Mamba ALSO Needs Registers [45.41648622999754]
ビジョントランスフォーマーと同様に、視覚マンバの特徴マップにも存在しているアーティファクトを識別する。
これらのアーティファクトは、画像の低情報背景領域に出現するハイノームトークンに対応しており、Vision Mambaではより深刻に見えます。
この問題を緩和するために、私たちはVision Mambaにレジスタトークンを導入するという以前のソリューションに従います。
論文 参考訳(メタデータ) (2024-05-23T17:58:43Z) - MambaOut: Do We Really Need Mamba for Vision? [70.60495392198686]
状態空間モデル(SSM)のRNNライクなトークンミキサーを備えたアーキテクチャであるMambaが最近導入され、注意機構の2次複雑さに対処した。
本論文は,マンバが長周期および自己回帰特性を有するタスクに理想的に適していることを概念的に結論づける。
我々は,コアトークンミキサーであるSSMを除去しながら,Mambaブロックを積み重ねることで,MambaOutという名前の一連のモデルを構築する。
論文 参考訳(メタデータ) (2024-05-13T17:59:56Z) - CLIP-Mamba: CLIP Pretrained Mamba Models with OOD and Hessian Evaluation [18.383760896304604]
本報告では,コントラッシブ・テクニカル・イメージ・プレトレーニング(CLIP)を利用したMambaモデルをトレーニングする最初の試みを紹介する。
Mambaモデル67万のパラメータは、ゼロショット分類タスクにおけるビジョントランスフォーマー(ViT)モデルと同等である。
論文 参考訳(メタデータ) (2024-04-30T09:40:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。