論文の概要: Mamba2 Meets Silence: Robust Vocal Source Separation for Sparse Regions
- arxiv url: http://arxiv.org/abs/2508.14556v1
- Date: Wed, 20 Aug 2025 09:19:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.40814
- Title: Mamba2 Meets Silence: Robust Vocal Source Separation for Sparse Regions
- Title(参考訳): Mamba2がサイレンスに - スパースリージョンのためのロバストな音声ソース分離
- Authors: Euiyeon Kim, Yong-Hoon Choi,
- Abstract要約: 正確な声質分離に適した新しい音源分離モデルを提案する。
間欠的に発生するボーカルをキャプチャできないTransformerベースのアプローチとは異なり、我々のモデルは最近の状態空間モデルであるMamba2を活用する。
実験の結果,本手法は最近の最先端モデルよりも優れ,11.03dBのcSDRを実現していることがわかった。
- 参考スコア(独自算出の注目度): 0.9208007322096533
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a new music source separation model tailored for accurate vocal isolation. Unlike Transformer-based approaches, which often fail to capture intermittently occurring vocals, our model leverages Mamba2, a recent state space model, to better capture long-range temporal dependencies. To handle long input sequences efficiently, we combine a band-splitting strategy with a dual-path architecture. Experiments show that our approach outperforms recent state-of-the-art models, achieving a cSDR of 11.03 dB-the best reported to date-and delivering substantial gains in uSDR. Moreover, the model exhibits stable and consistent performance across varying input lengths and vocal occurrence patterns. These results demonstrate the effectiveness of Mamba-based models for high-resolution audio processing and open up new directions for broader applications in audio research.
- Abstract(参考訳): 正確な声質分離に適した新しい音源分離モデルを提案する。
間欠的に発生するボーカルのキャプチャに失敗するTransformerベースのアプローチとは異なり、我々のモデルは最近の状態空間モデルであるMamba2を利用して、長距離の時間的依存をよりよくキャプチャする。
長い入力シーケンスを効率的に処理するために、バンド分割戦略とデュアルパスアーキテクチャを組み合わせる。
実験の結果,本手法は最近の最先端モデルよりも優れており,11.03dBのcSDRを実現している。
さらに, 様々な入力長と発声パターンに対して, 安定かつ一貫した性能を示す。
これらの結果は,高分解能音声処理におけるMambaモデルの有効性を実証し,音声研究の幅広い応用に向けて新たな方向性を開くものである。
関連論文リスト
- Routing Mamba: Scaling State Space Models with Mixture-of-Experts Projection [88.47928738482719]
線形状態空間モデル(SSM)は、シーケンスモデリングにおいて顕著なパフォーマンス向上を提供する。
Mambaのような最近の進歩は、入力依存のゲーティングとハードウェア対応の実装により、SSMをさらに強化している。
本稿では,線形射影の専門家による疎混合を用いてSSMパラメータをスケールする新しい手法であるRoM(Roing Mamba)を紹介する。
論文 参考訳(メタデータ) (2025-06-22T19:26:55Z) - Wave-U-Mamba: An End-To-End Framework For High-Quality And Efficient Speech Super Resolution [4.495657539150699]
SSR(Speech Super-Resolution)は、高周波数成分の欠如を回復させることにより低分解能音声信号を強化するタスクである。
従来の手法では、通常、対数メルの特徴を再構成し、次いで波形領域で高分解能な音声を生成するボコーダが続く。
本稿では,SSRを時間領域で直接実行するWave-U-Mambaという手法を提案する。
論文 参考訳(メタデータ) (2024-09-14T06:52:00Z) - ReMamba: Equip Mamba with Effective Long-Sequence Modeling [50.530839868893786]
本研究では,長い文脈の理解能力を高めるReMambaを提案する。
ReMambaは2段階のプロセスで選択的圧縮と適応のテクニックを取り入れている。
論文 参考訳(メタデータ) (2024-08-28T02:47:27Z) - SPMamba: State-space model is all you need in speech separation [20.168153319805665]
CNNベースの音声分離モデルは、局所的な受容的場制限に直面し、長期間の依存関係を効果的にキャプチャできない。
本稿では,SPMambaという音声分離手法を提案する。
このモデルは、TF-GridNetアーキテクチャに基づいており、従来のBLSTMモジュールを双方向のMambaモジュールに置き換えている。
論文 参考訳(メタデータ) (2024-04-02T16:04:31Z) - DPATD: Dual-Phase Audio Transformer for Denoising [25.097894984130733]
本稿では,denoising (DPATD) のための2相音響変換器を提案する。
メモリに圧縮された説明可能な注意は効率的で、頻繁に使用される自己注意モジュールよりも早く収束する。
論文 参考訳(メタデータ) (2023-10-30T14:44:59Z) - End-To-End Audiovisual Feature Fusion for Active Speaker Detection [7.631698269792165]
本研究は,VGG-Mによる画像から抽出した特徴と,音声波形から抽出したMel周波数Cepstrum係数とを融合した新しい2ストリームエンドツーエンドフレームワークを提案する。
我々の最高の性能モデルは88.929%の精度を達成した。
論文 参考訳(メタデータ) (2022-07-27T10:25:59Z) - Real Time Speech Enhancement in the Waveform Domain [99.02180506016721]
本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。
提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。
静止ノイズや非定常ノイズを含む様々な背景ノイズを除去することができる。
論文 参考訳(メタデータ) (2020-06-23T09:19:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。