論文の概要: A Conditioned UNet for Music Source Separation
- arxiv url: http://arxiv.org/abs/2512.15532v1
- Date: Wed, 17 Dec 2025 15:35:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:27.04466
- Title: A Conditioned UNet for Music Source Separation
- Title(参考訳): 音源分離のための条件付きUNet
- Authors: Ken O'Hanlon, Basil Woods, Lin Wang, Mark Sandler,
- Abstract要約: 条件付きMSSネットワークは、その幹が抽出される信号と並行して、興味ある幹に関連する音声クエリを受信する。
Sparse Compressed Network for MSSにネットワーク条件要素を統合する新しいMSS用条件付きUNetであるQSCNetを提案する。
QSCNetは2つのMSSタスクで1dB以上のSNRを上回り、パラメータの半数以下を使用する。
- 参考スコア(独自算出の注目度): 10.35238113738388
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper we propose a conditioned UNet for Music Source Separation (MSS). MSS is generally performed by multi-output neural networks, typically UNets, with each output representing a particular stem from a predefined instrument vocabulary. In contrast, conditioned MSS networks accept an audio query related to a stem of interest alongside the signal from which that stem is to be extracted. Thus, a strict vocabulary is not required and this enables more realistic tasks in MSS. The potential of conditioned approaches for such tasks has been somewhat hidden due to a lack of suitable data, an issue recently addressed with the MoisesDb dataset. A recent method, Banquet, employs this dataset with promising results seen on larger vocabularies. Banquet uses Bandsplit RNN rather than a UNet and the authors state that UNets should not be suitable for conditioned MSS. We counter this argument and propose QSCNet, a novel conditioned UNet for MSS that integrates network conditioning elements in the Sparse Compressed Network for MSS. We find QSCNet to outperform Banquet by over 1dB SNR on a couple of MSS tasks, while using less than half the number of parameters.
- Abstract(参考訳): 本稿では,音楽音源分離のための条件付きUNetを提案する。
MSSは通常、マルチ出力ニューラルネットワーク(通常UNets)によって実行され、各出力は事前に定義された機器語彙から特定の幹を表す。
対照的に、条件付きMSSネットワークは、そのステムを抽出する信号と並行して、関心の茎に関連する音声クエリを受信する。
したがって、厳格な語彙は不要であり、MSSのより現実的なタスクを可能にする。
このようなタスクに対する条件付きアプローチの可能性は、MoisesDbデータセットで最近解決された問題である、適切なデータがないために、ある程度隠されている。
最近の手法であるBanquetでは、このデータセットを使用して、より大きな語彙で見られる有望な結果を示している。
BanquetはUNetではなくBandsplit RNNを使用している。
この議論に反論し、Sparse Compressed Network for MSSにネットワーク条件要素を統合する新しい条件付きMSS用UNetであるQSCNetを提案する。
QSCNetは2つのMSSタスクで1dB以上のSNRを上回り、パラメータの半数以下を使用する。
関連論文リスト
- LaSSM: Efficient Semantic-Spatial Query Decoding via Local Aggregation and State Space Models for 3D Instance Segmentation [21.566771922153027]
競争性能を維持しつつ、シンプルさと効率性を優先するLaSSMを紹介します。
また、問合せを段階的に洗練する座標誘導状態空間モデル(SSM)デコーダを提案する。
LaSSMは最新のScanNet++ V2リーダーボードで1位にランクインし、以前のベストメソッドよりも2.5% mAP、1/3 FLOPを上回っている。
論文 参考訳(メタデータ) (2026-02-11T16:34:12Z) - Benchmarking Multi-modal Semantic Segmentation under Sensor Failures: Missing and Noisy Modality Robustness [61.87055159919641]
マルチモーダルセマンティックセグメンテーション(MMSS)は、モーダル間で補完情報を統合することで、単一モーダルデータの制限に対処する。
顕著な進歩にもかかわらず、マルチモーダルデータ品質の変動と不確実性により、研究と実世界の展開の間に大きなギャップが持続する。
Intire-Missing Modality (EMM)、Random-Missing Modality (RMM)、Noisy Modality (NM)の3つのシナリオでMMSSモデルを評価する頑健性ベンチマークを導入する。
論文 参考訳(メタデータ) (2025-03-24T08:46:52Z) - LMS-Net: A Learned Mumford-Shah Network For Few-Shot Medical Image Segmentation [16.384916751377794]
我々はLearned Mumford-Shah Network(LMS-Net)と呼ばれる新しい深層展開ネットワークを提案する。
我々は,学習したMumford-Shahモデル(LMSモデル)を数学的基礎として活用し,洞察を統一されたフレームワークに統合する。
3つの医用セグメンテーションデータセットの総合的な実験により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2025-02-08T07:15:44Z) - SMR: State Memory Replay for Long Sequence Modeling [19.755738298836526]
本稿では並列畳み込み計算における互換性の限界を克服する新しい非再帰的非一様サンプル処理戦略を提案する。
本研究では,学習可能な記憶を利用する状態記憶再生(SMR)を導入し,学習データと異なるサンプリングポイントでの一般化のために,現在の状態を多段階情報で調整する。
自己回帰言語モデリングとLong Range Arenaにおける長距離モデリングタスクの実験は、一連のSSMモデルに対するSMRメカニズムの一般的な効果を実証している。
論文 参考訳(メタデータ) (2024-05-27T17:53:32Z) - Unsupervised Speech Recognition with N-Skipgram and Positional Unigram
Matching [67.98016412551245]
本稿では,新しいASRシステムであるESPUMを紹介する。
このシステムは、少数のサンプルから収集された位置ユニグラム統計と合わせて、低階N-スキップグラム(最大N=3)のパワーを利用する。
本モデルは,ASRと音素セグメンテーションにおける競合性能を示す。
論文 参考訳(メタデータ) (2023-10-03T19:05:32Z) - Temporal-aware Hierarchical Mask Classification for Video Semantic
Segmentation [62.275143240798236]
ビデオセマンティックセグメンテーションデータセットは、ビデオ毎のカテゴリが限られている。
VSSトレーニング中に意味のある勾配更新を受けるために、クエリの10%未満がマッチする可能性がある。
提案手法は,最新のVSSベンチマークVSPWにおいてベルやホイッスルを使わずに,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-09-14T20:31:06Z) - ESPnet-SE++: Speech Enhancement for Robust Speech Recognition,
Translation, and Understanding [86.47555696652618]
本稿では,音声分離と拡張をESPnetツールキットに統合する最近の進歩について述べる。
新しいインタフェースは、音声認識(ASR)、音声翻訳(ST)、音声言語理解(SLU)など、音声強調フロントエンドと他のタスクを併用するように設計されている。
その結果,SEフロントエンドとバックエンドタスクの統合は,ASR以外のタスクにおいても有望な研究方向であることが示唆された。
論文 参考訳(メタデータ) (2022-07-19T18:55:29Z) - STOP: A dataset for Spoken Task Oriented Semantic Parsing [66.14615249745448]
エンドツーエンド音声言語理解(SLU)は単一モデルを用いて音声から直接意図を予測する。
Spoken Task-Oriented semantic Parsing (STOP) データセットをリリースします。
人間が録音した音声に加えて、我々はTS生成バージョンをリリースし、エンド・ツー・エンドのSLUシステムの低リソース領域適応の性能をベンチマークする。
論文 参考訳(メタデータ) (2022-06-29T00:36:34Z) - MFA: TDNN with Multi-scale Frequency-channel Attention for
Text-independent Speaker Verification with Short Utterances [94.70787497137854]
本稿では、畳み込みニューラルネットワークとTDNNからなる新しいデュアルパス設計により、話者を異なるスケールで特徴付けるマルチスケール周波数チャネルアテンション(MFA)を提案する。
我々は,提案したMFAをVoxCelebデータベース上で評価し,提案したMFAを用いたフレームワークが,パラメータや複雑性を低減しつつ,最先端のパフォーマンスを実現することを確認した。
論文 参考訳(メタデータ) (2022-02-03T14:57:05Z) - AMSS-Net: Audio Manipulation on User-Specified Sources with Textual
Queries [1.4991111518581999]
本稿では,与えられた記述に従って,特定のオーディオトラックのユーザ特定ソースにオーディオ変換を行うニューラルネットワークを提案する。
客観的なメトリクスと実証的検証によってAMSS-NetがいくつかのAMSSタスクのベースラインを上回っていることを示した。
論文 参考訳(メタデータ) (2021-04-28T03:27:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。