論文の概要: A Mamba-based Network for Semi-supervised Singing Melody Extraction Using Confidence Binary Regularization
- arxiv url: http://arxiv.org/abs/2505.08681v1
- Date: Tue, 13 May 2025 15:43:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.648228
- Title: A Mamba-based Network for Semi-supervised Singing Melody Extraction Using Confidence Binary Regularization
- Title(参考訳): 信頼二元規則化を用いた半教師付き歌唱メロディ抽出のためのマンバネットワーク
- Authors: Xiaoliang He, Kangjie Dong, Jingkai Cao, Shuai Yu, Wei Li, Yi Yu,
- Abstract要約: 歌唱旋律抽出は音楽情報検索の分野で重要な課題である。
既存の方法にはいくつかの制限がある。
半教師付き歌唱メロディ抽出のためのマンバベースネットワークSpectMambaを提案する。
- 参考スコア(独自算出の注目度): 14.501400507234356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Singing melody extraction (SME) is a key task in the field of music information retrieval. However, existing methods are facing several limitations: firstly, prior models use transformers to capture the contextual dependencies, which requires quadratic computation resulting in low efficiency in the inference stage. Secondly, prior works typically rely on frequencysupervised methods to estimate the fundamental frequency (f0), which ignores that the musical performance is actually based on notes. Thirdly, transformers typically require large amounts of labeled data to achieve optimal performances, but the SME task lacks of sufficient annotated data. To address these issues, in this paper, we propose a mamba-based network, called SpectMamba, for semi-supervised singing melody extraction using confidence binary regularization. In particular, we begin by introducing vision mamba to achieve computational linear complexity. Then, we propose a novel note-f0 decoder that allows the model to better mimic the musical performance. Further, to alleviate the scarcity of the labeled data, we introduce a confidence binary regularization (CBR) module to leverage the unlabeled data by maximizing the probability of the correct classes. The proposed method is evaluated on several public datasets and the conducted experiments demonstrate the effectiveness of our proposed method.
- Abstract(参考訳): 歌声旋律抽出(SME)は音楽情報検索の分野で重要な課題である。
しかし、既存の手法はいくつかの制限に直面している。第一に、先行モデルでは、コンテクスト依存をキャプチャするためにトランスフォーマーを使用しており、これは2次計算を必要とするため、推論段階では効率が低くなる。
第二に、先行研究は通常、基本周波数(f0)を推定するための周波数監督法に依存しており、これは演奏が実際に音符に基づいていることを無視している。
第三に、トランスフォーマーは通常、最適なパフォーマンスを達成するために大量のラベル付きデータを必要とするが、SMEタスクには十分なアノテートデータがない。
これらの問題に対処するため,本論文では,信頼度二元正則化を用いた半教師付き歌唱メロディ抽出のための,SpectMambaと呼ばれるマンバベースのネットワークを提案する。
特に、計算線形複雑性を実現するために視覚マンバを導入することから始める。
そこで,本研究では,演奏の再現性を向上する新しいノート-f0デコーダを提案する。
さらに,ラベル付きデータの不足を軽減するために,信頼度二元正則化(CBR)モジュールを導入する。
提案手法を複数の公開データセットで評価し,提案手法の有効性を実証した。
関連論文リスト
- M2Rec: Multi-scale Mamba for Efficient Sequential Recommendation [35.508076394809784]
Modelは、Fourier分析、大規模言語モデル、適応ゲーティングとマルチスケールのMambaを統合した、新しいシーケンシャルなレコメンデーションフレームワークである。
実験では、モデルは最先端のパフォーマンスを実現し、既存のMambaベースのモデルよりもHit Rate@10を3.2%改善した。
論文 参考訳(メタデータ) (2025-05-07T14:14:29Z) - DiffImpute: Tabular Data Imputation With Denoising Diffusion Probabilistic Model [9.908561639396273]
DiffImputeという新しい拡散確率モデル(DDPM)を提案する。
既存のデータの信頼性を損なうことなく、欠落したエントリに対して信頼できる警告を生成する。
Missing Completely At Random (MCAR) と Missing At Random (MAR) の様々な設定に適用できる。
論文 参考訳(メタデータ) (2024-03-20T08:45:31Z) - Federated Learning with Instance-Dependent Noisy Label [6.093214616626228]
FedBeatはIDN遷移行列(IDNTM)を用いたグローバルな統計的一貫した分類器の構築を目指している
CIFAR-10 と SVHN で行った実験により,提案手法が最先端手法を著しく上回っていることを確認した。
論文 参考訳(メタデータ) (2023-12-16T05:08:02Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - MAPS: A Noise-Robust Progressive Learning Approach for Source-Free
Domain Adaptive Keypoint Detection [76.97324120775475]
クロスドメインキーポイント検出方法は、常に適応中にソースデータにアクセスする必要がある。
本稿では、ターゲット領域に十分に訓練されたソースモデルのみを提供する、ソースフリーなドメイン適応キーポイント検出について考察する。
論文 参考訳(メタデータ) (2023-02-09T12:06:08Z) - Transformers Can Do Bayesian Inference [56.99390658880008]
我々はPFN(Presideed Data Fitted Networks)を提案する。
PFNは、大規模機械学習技術におけるインコンテキスト学習を活用して、大規模な後部集合を近似する。
我々は、PFNがガウス過程をほぼ完璧に模倣し、難解問題に対する効率的なベイズ推定を可能にすることを示した。
論文 参考訳(メタデータ) (2021-12-20T13:07:39Z) - Mutual-Information Based Few-Shot Classification [34.95314059362982]
数ショット学習のためのTIM(Transductive Infomation Maximization)を提案する。
提案手法は,与えられた数発のタスクに対して,クエリ特徴とラベル予測との相互情報を最大化する。
そこで我々は,勾配に基づく最適化よりもトランスダクティブ推論を高速化する交代方向解法を提案する。
論文 参考訳(メタデータ) (2021-06-23T09:17:23Z) - Fast accuracy estimation of deep learning based multi-class musical
source separation [79.10962538141445]
本稿では,ニューラルネットワークのトレーニングやチューニングを行うことなく,任意のデータセットにおける楽器の分離性を評価する手法を提案する。
理想的な比マスクを持つオラクルの原理に基づいて、我々の手法は最先端のディープラーニング手法の分離性能を推定するための優れたプロキシである。
論文 参考訳(メタデータ) (2020-10-19T13:05:08Z) - Meta Transition Adaptation for Robust Deep Learning with Noisy Labels [61.8970957519509]
本研究では,新しいメタ遷移学習戦略を提案する。
具体的には、クリーンなラベル付きメタデータの小さなセットのサウンドガイダンスにより、ノイズ遷移行列と分類器パラメータを相互に改善することができる。
本手法は, 従来技術よりも頑健な性能で, 遷移行列をより正確に抽出することができる。
論文 参考訳(メタデータ) (2020-06-10T07:27:25Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。