Fugu-MT 論文翻訳(概要): A Conditioned UNet for Music Source Separation

論文の概要: A Conditioned UNet for Music Source Separation

arxiv url: http://arxiv.org/abs/2512.15532v1
Date: Wed, 17 Dec 2025 15:35:57 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-18 17:06:27.04466
Title: A Conditioned UNet for Music Source Separation
Title（参考訳）: 音源分離のための条件付きUNet
Authors: Ken O'Hanlon, Basil Woods, Lin Wang, Mark Sandler,
Abstract要約: 条件付きMSSネットワークは、その幹が抽出される信号と並行して、興味ある幹に関連する音声クエリを受信する。 Sparse Compressed Network for MSSにネットワーク条件要素を統合する新しいMSS用条件付きUNetであるQSCNetを提案する。 QSCNetは2つのMSSタスクで1dB以上のSNRを上回り、パラメータの半数以下を使用する。
参考スコア（独自算出の注目度）: 10.35238113738388
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper we propose a conditioned UNet for Music Source Separation (MSS). MSS is generally performed by multi-output neural networks, typically UNets, with each output representing a particular stem from a predefined instrument vocabulary. In contrast, conditioned MSS networks accept an audio query related to a stem of interest alongside the signal from which that stem is to be extracted. Thus, a strict vocabulary is not required and this enables more realistic tasks in MSS. The potential of conditioned approaches for such tasks has been somewhat hidden due to a lack of suitable data, an issue recently addressed with the MoisesDb dataset. A recent method, Banquet, employs this dataset with promising results seen on larger vocabularies. Banquet uses Bandsplit RNN rather than a UNet and the authors state that UNets should not be suitable for conditioned MSS. We counter this argument and propose QSCNet, a novel conditioned UNet for MSS that integrates network conditioning elements in the Sparse Compressed Network for MSS. We find QSCNet to outperform Banquet by over 1dB SNR on a couple of MSS tasks, while using less than half the number of parameters.
Abstract（参考訳）: 本稿では,音楽音源分離のための条件付きUNetを提案する。 MSSは通常、マルチ出力ニューラルネットワーク(通常UNets)によって実行され、各出力は事前に定義された機器語彙から特定の幹を表す。対照的に、条件付きMSSネットワークは、そのステムを抽出する信号と並行して、関心の茎に関連する音声クエリを受信する。したがって、厳格な語彙は不要であり、MSSのより現実的なタスクを可能にする。このようなタスクに対する条件付きアプローチの可能性は、MoisesDbデータセットで最近解決された問題である、適切なデータがないために、ある程度隠されている。最近の手法であるBanquetでは、このデータセットを使用して、より大きな語彙で見られる有望な結果を示している。 BanquetはUNetではなくBandsplit RNNを使用している。この議論に反論し、Sparse Compressed Network for MSSにネットワーク条件要素を統合する新しい条件付きMSS用UNetであるQSCNetを提案する。 QSCNetは2つのMSSタスクで1dB以上のSNRを上回り、パラメータの半数以下を使用する。

関連論文リスト

Benchmarking Multi-modal Semantic Segmentation under Sensor Failures: Missing and Noisy Modality Robustness [61.87055159919641]
マルチモーダルセマンティックセグメンテーション(MMSS)は、モーダル間で補完情報を統合することで、単一モーダルデータの制限に対処する。顕著な進歩にもかかわらず、マルチモーダルデータ品質の変動と不確実性により、研究と実世界の展開の間に大きなギャップが持続する。 Intire-Missing Modality (EMM)、Random-Missing Modality (RMM)、Noisy Modality (NM)の3つのシナリオでMMSSモデルを評価する頑健性ベンチマークを導入する。
論文参考訳（メタデータ） (2025-03-24T08:46:52Z)
LMS-Net: A Learned Mumford-Shah Network For Few-Shot Medical Image Segmentation [16.384916751377794]
我々はLearned Mumford-Shah Network(LMS-Net)と呼ばれる新しい深層展開ネットワークを提案する。我々は,学習したMumford-Shahモデル(LMSモデル)を数学的基礎として活用し,洞察を統一されたフレームワークに統合する。 3つの医用セグメンテーションデータセットの総合的な実験により,本手法の有効性が検証された。
論文参考訳（メタデータ） (2025-02-08T07:15:44Z)
Unsupervised Speech Recognition with N-Skipgram and Positional Unigram Matching [67.98016412551245]
本稿では,新しいASRシステムであるESPUMを紹介する。このシステムは、少数のサンプルから収集された位置ユニグラム統計と合わせて、低階N-スキップグラム(最大N=3)のパワーを利用する。本モデルは,ASRと音素セグメンテーションにおける競合性能を示す。
論文参考訳（メタデータ） (2023-10-03T19:05:32Z)
MFA: TDNN with Multi-scale Frequency-channel Attention for Text-independent Speaker Verification with Short Utterances [94.70787497137854]
本稿では、畳み込みニューラルネットワークとTDNNからなる新しいデュアルパス設計により、話者を異なるスケールで特徴付けるマルチスケール周波数チャネルアテンション(MFA)を提案する。我々は,提案したMFAをVoxCelebデータベース上で評価し,提案したMFAを用いたフレームワークが,パラメータや複雑性を低減しつつ,最先端のパフォーマンスを実現することを確認した。
論文参考訳（メタデータ） (2022-02-03T14:57:05Z)
AMSS-Net: Audio Manipulation on User-Specified Sources with Textual Queries [1.4991111518581999]
本稿では,与えられた記述に従って,特定のオーディオトラックのユーザ特定ソースにオーディオ変換を行うニューラルネットワークを提案する。客観的なメトリクスと実証的検証によってAMSS-NetがいくつかのAMSSタスクのベースラインを上回っていることを示した。
論文参考訳（メタデータ） (2021-04-28T03:27:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。