論文の概要: Mamba2 Meets Silence: Robust Vocal Source Separation for Sparse Regions
- arxiv url: http://arxiv.org/abs/2508.14556v1
- Date: Wed, 20 Aug 2025 09:19:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.40814
- Title: Mamba2 Meets Silence: Robust Vocal Source Separation for Sparse Regions
- Title(参考訳): Mamba2がサイレンスに - スパースリージョンのためのロバストな音声ソース分離
- Authors: Euiyeon Kim, Yong-Hoon Choi,
- Abstract要約: 正確な声質分離に適した新しい音源分離モデルを提案する。
間欠的に発生するボーカルをキャプチャできないTransformerベースのアプローチとは異なり、我々のモデルは最近の状態空間モデルであるMamba2を活用する。
実験の結果,本手法は最近の最先端モデルよりも優れ,11.03dBのcSDRを実現していることがわかった。
- 参考スコア(独自算出の注目度): 0.9208007322096533
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a new music source separation model tailored for accurate vocal isolation. Unlike Transformer-based approaches, which often fail to capture intermittently occurring vocals, our model leverages Mamba2, a recent state space model, to better capture long-range temporal dependencies. To handle long input sequences efficiently, we combine a band-splitting strategy with a dual-path architecture. Experiments show that our approach outperforms recent state-of-the-art models, achieving a cSDR of 11.03 dB-the best reported to date-and delivering substantial gains in uSDR. Moreover, the model exhibits stable and consistent performance across varying input lengths and vocal occurrence patterns. These results demonstrate the effectiveness of Mamba-based models for high-resolution audio processing and open up new directions for broader applications in audio research.
- Abstract(参考訳): 正確な声質分離に適した新しい音源分離モデルを提案する。
間欠的に発生するボーカルのキャプチャに失敗するTransformerベースのアプローチとは異なり、我々のモデルは最近の状態空間モデルであるMamba2を利用して、長距離の時間的依存をよりよくキャプチャする。
長い入力シーケンスを効率的に処理するために、バンド分割戦略とデュアルパスアーキテクチャを組み合わせる。
実験の結果,本手法は最近の最先端モデルよりも優れており,11.03dBのcSDRを実現している。
さらに, 様々な入力長と発声パターンに対して, 安定かつ一貫した性能を示す。
これらの結果は,高分解能音声処理におけるMambaモデルの有効性を実証し,音声研究の幅広い応用に向けて新たな方向性を開くものである。
関連論文リスト
- DiM-TS: Bridge the Gap between Selective State Space Models and Time Series for Generative Modeling [11.836475971106125]
時系列データは、さまざまな分野において重要な役割を果たすが、プライバシーに関する問題に直面している。
そこで,本研究では,モデルが認知過程において重要なパターンを識別する能力を高めるために,Lag Fusion MambaとPermutation Scanning Mambaを提案する。
またDiffusion Mamba for Time Series (DiM-TS)を導入し、時間周期性およびチャネル間相関をよりよく保存する高品質な時系列生成モデルを提案する。
論文 参考訳(メタデータ) (2025-11-23T06:48:03Z) - High-Quality Sound Separation Across Diverse Categories via Visually-Guided Generative Modeling [65.02357548201188]
DAVIS(Diffusion-based Audio-VIsual separation framework)を提案する。
本フレームワークは、混合音声入力と関連する視覚情報に基づいて、ノイズ分布から直接、所望の分離音スペクトルを合成することによって機能する。
論文 参考訳(メタデータ) (2025-09-26T08:46:00Z) - ESTM: An Enhanced Dual-Branch Spectral-Temporal Mamba for Anomalous Sound Detection [39.234515088121086]
本稿では、時間周波数デカップリングモデルを用いたデュアルパス・マンバアーキテクチャに基づく新しいフレームワークESTMを提案する。
ESTMは、Melスペクトルと生音声特徴を融合させることにより、異なる時間セグメントと周波数帯域からリッチな特徴表現を抽出する。
本実験は, ESTMがDCASE 2020 Task 2データセットの異常検出性能を向上させることを示す。
論文 参考訳(メタデータ) (2025-09-02T16:23:49Z) - Routing Mamba: Scaling State Space Models with Mixture-of-Experts Projection [88.47928738482719]
線形状態空間モデル(SSM)は、シーケンスモデリングにおいて顕著なパフォーマンス向上を提供する。
Mambaのような最近の進歩は、入力依存のゲーティングとハードウェア対応の実装により、SSMをさらに強化している。
本稿では,線形射影の専門家による疎混合を用いてSSMパラメータをスケールする新しい手法であるRoM(Roing Mamba)を紹介する。
論文 参考訳(メタデータ) (2025-06-22T19:26:55Z) - Wave-U-Mamba: An End-To-End Framework For High-Quality And Efficient Speech Super Resolution [4.495657539150699]
SSR(Speech Super-Resolution)は、高周波数成分の欠如を回復させることにより低分解能音声信号を強化するタスクである。
従来の手法では、通常、対数メルの特徴を再構成し、次いで波形領域で高分解能な音声を生成するボコーダが続く。
本稿では,SSRを時間領域で直接実行するWave-U-Mambaという手法を提案する。
論文 参考訳(メタデータ) (2024-09-14T06:52:00Z) - ReMamba: Equip Mamba with Effective Long-Sequence Modeling [50.530839868893786]
本研究では,長い文脈の理解能力を高めるReMambaを提案する。
ReMambaは2段階のプロセスで選択的圧縮と適応のテクニックを取り入れている。
論文 参考訳(メタデータ) (2024-08-28T02:47:27Z) - SPMamba: State-space model is all you need in speech separation [20.168153319805665]
CNNベースの音声分離モデルは、局所的な受容的場制限に直面し、長期間の依存関係を効果的にキャプチャできない。
本稿では,SPMambaという音声分離手法を提案する。
このモデルは、TF-GridNetアーキテクチャに基づいており、従来のBLSTMモジュールを双方向のMambaモジュールに置き換えている。
論文 参考訳(メタデータ) (2024-04-02T16:04:31Z) - Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual
Downstream Tasks [55.36987468073152]
本稿では,DG-SCT(Dual-Guided Space-Channel-Temporal)アテンション機構を提案する。
DG-SCTモジュールはトレーニング可能なクロスモーダル・インタラクション・レイヤを事前トレーニングされたオーディオ・ビジュアル・エンコーダに組み込む。
提案手法は, AVE, AVVP, AVS, AVQA, AVQAを含む複数のダウンストリームタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2023-11-09T05:24:20Z) - DPATD: Dual-Phase Audio Transformer for Denoising [25.097894984130733]
本稿では,denoising (DPATD) のための2相音響変換器を提案する。
メモリに圧縮された説明可能な注意は効率的で、頻繁に使用される自己注意モジュールよりも早く収束する。
論文 参考訳(メタデータ) (2023-10-30T14:44:59Z) - Separate And Diffuse: Using a Pretrained Diffusion Model for Improving
Source Separation [99.19786288094596]
上界をランダムな生成モデルに一般化する方法を示す。
複数のベンチマークで2, 3, 5, 10, 20人の話者に最先端の結果を示す。
論文 参考訳(メタデータ) (2023-01-25T18:21:51Z) - End-To-End Audiovisual Feature Fusion for Active Speaker Detection [7.631698269792165]
本研究は,VGG-Mによる画像から抽出した特徴と,音声波形から抽出したMel周波数Cepstrum係数とを融合した新しい2ストリームエンドツーエンドフレームワークを提案する。
我々の最高の性能モデルは88.929%の精度を達成した。
論文 参考訳(メタデータ) (2022-07-27T10:25:59Z) - Real Time Speech Enhancement in the Waveform Domain [99.02180506016721]
本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。
提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。
静止ノイズや非定常ノイズを含む様々な背景ノイズを除去することができる。
論文 参考訳(メタデータ) (2020-06-23T09:19:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。