論文の概要: MARS-Sep: Multimodal-Aligned Reinforced Sound Separation
- arxiv url: http://arxiv.org/abs/2510.10509v1
- Date: Sun, 12 Oct 2025 09:05:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 20:23:38.93461
- Title: MARS-Sep: Multimodal-Aligned Reinforced Sound Separation
- Title(参考訳): MARS-Sep:マルチモーダルアライメント強化音分離
- Authors: Zihan Zhang, Xize Cheng, Zhennan Jiang, Dongjie Fu, Jingyuan Chen, Zhou Zhao, Tao Jin,
- Abstract要約: MARS-Sepは音分離のための強化学習フレームワークである。
クリッピングされた信頼領域サロゲートによって最適化された、ファクタライズされたベータマスクポリシを学ぶ。
複数のベンチマークの実験は、テキスト、オーディオ、イメージ-キュード分離において一貫した利得を示している。
- 参考スコア(独自算出の注目度): 72.85468563236005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Universal sound separation faces a fundamental misalignment: models optimized for low-level signal metrics often produce semantically contaminated outputs, failing to suppress perceptually salient interference from acoustically similar sources. To bridge this gap, we introduce MARS-Sep, a reinforcement learning framework that reformulates separation as decision making. Instead of simply regressing ground-truth masks, MARS-Sep learns a factorized Beta mask policy that is optimized by a clipped trust-region surrogate with entropy regularization and group-relative advantage normalization. Concretely, we sample masks from a frozen old policy, reconstruct waveforms, and update the current policy using clipped importance ratios-yielding substantially more stable and sample-efficient learning. Multimodal rewards, derived from an audio-text-vision encoder, directly incentivize semantic consistency with query prompts. We further propose a progressive alignment scheme to fine-tune this encoder, boosting its cross-modal discriminability and improving reward faithfulness. Extensive experiments on multiple benchmarks demonstrate consistent gains in Text-, Audio-, and Image-Queried separation, with notable improvements in signal metrics and semantic quality. Our code is available at https://anonymous.4open.science/r/MARS-Sep. Sound separation samples are available at https://mars-sep.github.io/.
- Abstract(参考訳): 低レベルの信号メトリクスに最適化されたモデルは、しばしば意味的に汚染された出力を生成し、音響的に類似したソースからの知覚的に健全な干渉を抑えられなかった。
このギャップを埋めるため,意思決定として分離を再構築する強化学習フレームワークMARS-Sepを導入する。
MARS-Sepは、単に地道マスクを回帰するのではなく、エントロピー正規化とグループ相対優位正規化を備えたクリップされた信頼領域サロゲートによって最適化された因子化されたベータマスクポリシーを学習する。
具体的には、凍結した古いポリシーからマスクをサンプリングし、波形を再構成し、クリップされた重要度比を用いて現在のポリシーを更新する。
音声テキストビジョンエンコーダから派生したマルチモーダル報酬は、クエリプロンプトとのセマンティック一貫性を直接インセンティブ化する。
さらに、このエンコーダを微調整するプログレッシブアライメント方式を提案し、そのクロスモーダル識別性を向上し、報酬忠実性を向上させる。
複数のベンチマークに関する大規模な実験は、信号メトリクスとセマンティック品質を顕著に改善した、テキスト、オーディオ、画像の分離において、一貫した利得を示している。
私たちのコードはhttps://anonymous.4open.science/r/MARS-Sepで公開されています。
音の分離サンプルはhttps://mars-sep.github.io/.com/で入手できる。
関連論文リスト
- Improving Discrete Diffusion Unmasking Policies Beyond Explicit Reference Policies [47.6755955972232]
我々は,KL規則化マルコフ決定プロセス (MDP) として明示的な基準ポリシを付与し,正規化目標を最適化した。
このフレームワークの下で最適化されたポリシーは、スケジュールよりもデータ分布とより密に一致したサンプルを生成することを証明している。
論文 参考訳(メタデータ) (2025-10-07T09:44:24Z) - MARS: Audio Generation via Multi-Channel Autoregression on Spectrograms [0.8258451067861929]
スペクトログラムをマルチチャネル画像として扱うフレームワークであるMARS(Multi-channel AutoRegression on Spectrograms)を紹介する。
共有トークン化器はスケールをまたいだ一貫した離散表現を提供し、トランスフォーマーベースのオートレグレッシャが分光図を効率的に精査することを可能にする。
論文 参考訳(メタデータ) (2025-09-30T09:38:02Z) - PMark: Towards Robust and Distortion-free Semantic-level Watermarking with Channel Constraints [49.2373408329323]
大規模言語モデル(LLM)のための透かしレベル(SWM)に関する新しい理論フレームワークを提案する。
PMarkは単純だが強力なSWM手法であり、サンプリングチャネルを通して中央値の次文を動的に推定する。
実験結果から,PMarkはテキスト品質とパラフレージングの両方において,既存のSWMベースラインを一貫して上回ることがわかった。
論文 参考訳(メタデータ) (2025-09-25T12:08:31Z) - Autoregressive Speech Synthesis without Vector Quantization [135.4776759536272]
We present MELLE, a novel continuous-valued token based language modeling approach for text-to-speech synthesis (TTS)。
MELLEはテキスト条件から直接連続メル-スペクトログラムフレームを自動回帰生成する。
MELLEは、サンプリングベクトル量子化符号の固有の欠陥を回避し、ロバスト性問題を緩和する。
論文 参考訳(メタデータ) (2024-07-11T14:36:53Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - Boosting Continuous Sign Language Recognition via Cross Modality
Augmentation [135.30357113518127]
連続手話認識は不整合のビデオテキストペアを扱う。
クロスモーダル拡張を用いた新しいアーキテクチャを提案する。
提案するフレームワークは、既存のCTCベースの連続SLRアーキテクチャに容易に拡張できる。
論文 参考訳(メタデータ) (2020-10-11T15:07:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。