論文の概要: Schrödinger Bridge Mamba for One-Step Speech Enhancement
- arxiv url: http://arxiv.org/abs/2510.16834v1
- Date: Sun, 19 Oct 2025 13:46:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.173497
- Title: Schrödinger Bridge Mamba for One-Step Speech Enhancement
- Title(参考訳): ワンステップ音声強調のためのシュレーディンガーブリッジ・マンバ
- Authors: Jing Yang, Sirui Wang, Chao Wu, Fan Fan,
- Abstract要約: そこで本稿では,Schr"odinger Bridge (SB) トレーニングパラダイムと選択状態空間モデルMambaとの固有の互換性を動機とした,新たなトレーニング推論フレームワークを提案する。
4つのベンチマークデータセットを用いた共同記述およびデバベーションタスクの実験では、SBMは1ステップの推論だけで、1ステップまたは反復的な推論で強いベースラインを上回ります。
- 参考スコア(独自算出の注目度): 18.908900741027566
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Schr\"odinger Bridge Mamba (SBM), a new concept of training-inference framework motivated by the inherent compatibility between Schr\"odinger Bridge (SB) training paradigm and selective state-space model Mamba. We exemplify the concept of SBM with an implementation for generative speech enhancement. Experiments on a joint denoising and dereverberation task using four benchmark datasets demonstrate that SBM, with only 1-step inference, outperforms strong baselines with 1-step or iterative inference and achieves the best real-time factor (RTF). Beyond speech enhancement, we discuss the integration of SB paradigm and selective state-space model architecture based on their underlying alignment, which indicates a promising direction for exploring new deep generative models potentially applicable to a broad range of generative tasks. Demo page: https://sbmse.github.io
- Abstract(参考訳): 我々はSBM(Schr\odinger Bridge Mamba)を提案する。これは、SB(Schr\odinger Bridge)トレーニングパラダイムと選択状態空間モデルMambaとの固有の互換性を動機としたトレーニング推論フレームワークである。
生成音声強調の実装により,SBMの概念を実証する。
4つのベンチマークデータセットを用いた共同記述およびデバベーションタスクの実験では、SBMは1ステップの推論だけで、1ステップまたは反復的な推論で強いベースラインを上回り、最高のリアルタイム係数(RTF)を達成することを示した。
音声強調の他に,SBパラダイムと,その基盤となるアライメントに基づく選択的状態空間モデルアーキテクチャの統合についても論じる。
デモページ: https://sbmse.github.io
関連論文リスト
- Exploring State-Space-Model based Language Model in Music Generation [12.697065688262521]
我々は,マンバをベースとしたテキスト・音楽生成アーキテクチャの可能性を探る。
我々は、もともとMambaベースのエンコーダとして設計されたSiMBAを適用し、シーケンスモデリングのためのデコーダとして機能する。
以上の結果から,SiMBAは,限られた資源設定下でより高速な収束を実現し,真理に近い出力を生成することが示唆された。
論文 参考訳(メタデータ) (2025-07-09T09:05:18Z) - Mamba-CL: Optimizing Selective State Space Model in Null Space for Continual Learning [54.19222454702032]
継続的学習は、AIモデルに時間とともに一連のタスクを学習する能力を持たせることを目的としている。
ステートスペースモデル(SSM)はコンピュータビジョンにおいて顕著な成功を収めた。
大規模マンバ基礎モデルのコアSSMを連続的に微調整するフレームワークであるMamba-CLを紹介する。
論文 参考訳(メタデータ) (2024-11-23T06:36:16Z) - Longhorn: State Space Models are Amortized Online Learners [51.10124201221601]
ステートスペースモデル(SSM)は、トレーニング中に並列性を維持しながら線形デコード効率を提供する。
本研究では、オンライン学習のレンズを通してSSM設計を探求し、特定のオンライン学習問題のメタモジュールとしてSSMを概念化する。
我々は、オンライン連想的リコール問題を解決するためのクローズドフォームソリューションに類似した、新しいディープSSMアーキテクチャであるLonghornを紹介した。
論文 参考訳(メタデータ) (2024-07-19T11:12:08Z) - A Large-Scale Evaluation of Speech Foundation Models [110.95827399522204]
音声処理ユニバーサルパフォーマンスベンチマーク(SUPERB)を構築し,基礎モデルパラダイムの有効性について検討する。
凍結基盤モデルを用いてSUPERBにおける音声処理タスクに対処する統合マルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-15T00:03:16Z) - Simplified Diffusion Schrödinger Bridge [24.492662903341966]
本稿では,拡散シュル「オーディンガー橋 (DSB) の新規な簡易化について紹介する。
これは複雑なデータ生成におけるDSBの限界に対処し、より高速な収束と性能向上を可能にする。
論文 参考訳(メタデータ) (2024-03-21T17:59:41Z) - SE-Bridge: Speech Enhancement with Consistent Brownian Bridge [18.37042387650827]
音声強調(SE)の新しい手法であるSE-Bridgeを提案する。
提案手法は,同一のPF-ODE軌道上の任意の音声状態が同一の初期状態に対応することを保証する一貫性モデルに基づく。
Brownian Bridgeプロセスを統合することで、モデルは敵の訓練なしに高信頼度音声サンプルを生成することができる。
論文 参考訳(メタデータ) (2023-05-23T08:06:36Z) - BSN++: Complementary Boundary Regressor with Scale-Balanced Relation
Modeling for Temporal Action Proposal Generation [85.13713217986738]
我々は,時間的提案生成のための補完的境界回帰器と関係モデリングを利用する新しいフレームワークであるBSN++を提案する。
当然のことながら、提案されたBSN++は、時間的アクションローカライゼーションタスクに関するCVPR19 - ActivityNetのリーダーボードで1位にランクインした。
論文 参考訳(メタデータ) (2020-09-15T07:08:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。