Fugu-MT 論文翻訳(概要): MAJL: A Model-Agnostic Joint Learning Framework for Music Source Separation and Pitch Estimation

論文の概要: MAJL: A Model-Agnostic Joint Learning Framework for Music Source Separation and Pitch Estimation

arxiv url: http://arxiv.org/abs/2501.03689v1
Date: Tue, 07 Jan 2025 10:38:51 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-08 16:58:03.018439
Title: MAJL: A Model-Agnostic Joint Learning Framework for Music Source Separation and Pitch Estimation
Title（参考訳）: MAJL: 音源分離とピッチ推定のためのモデル非依存の統合学習フレームワーク
Authors: Haojie Wei, Jun Yuan, Rui Zhang, Quanyu Dai, Yueguo Chen,
Abstract要約: 音源分離とピッチ推定は音楽情報検索において重要な課題である。両タスクのモデル非依存型共同学習フレームワークを提案する。両タスクにおいてMAJLが最先端の手法より優れていることを示す。
参考スコア（独自算出の注目度）: 14.547438854536306
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Music source separation and pitch estimation are two vital tasks in music information retrieval. Typically, the input of pitch estimation is obtained from the output of music source separation. Therefore, existing methods have tried to perform these two tasks simultaneously, so as to leverage the mutually beneficial relationship between both tasks. However, these methods still face two critical challenges that limit the improvement of both tasks: the lack of labeled data and joint learning optimization. To address these challenges, we propose a Model-Agnostic Joint Learning (MAJL) framework for both tasks. MAJL is a generic framework and can use variant models for each task. It includes a two-stage training method and a dynamic weighting method named Dynamic Weights on Hard Samples (DWHS), which addresses the lack of labeled data and joint learning optimization, respectively. Experimental results on public music datasets show that MAJL outperforms state-of-the-art methods on both tasks, with significant improvements of 0.92 in Signal-to-Distortion Ratio (SDR) for music source separation and 2.71% in Raw Pitch Accuracy (RPA) for pitch estimation. Furthermore, comprehensive studies not only validate the effectiveness of each component of MAJL, but also indicate the great generality of MAJL in adapting to different model architectures.
Abstract（参考訳）: 音源分離とピッチ推定は音楽情報検索において重要な2つの課題である。典型的には、音源分離の出力からピッチ推定の入力を得る。そのため,既存の手法では,この2つのタスクを同時に実行し,双方のタスク間の相互に有益な関係を生かそうとしている。しかし、これらの手法は、ラベル付きデータの欠如と共同学習最適化という、両方のタスクの改善を制限する2つの重要な課題に直面している。これらの課題に対処するために,モデル非依存型共同学習(MAJL)フレームワークを提案する。 MAJLは汎用フレームワークであり、各タスクに可変モデルを使用することができる。 2段階のトレーニング方法と動的重み付け手法であるDynamic Weights on Hard Samples (DWHS)が含まれており、ラベル付きデータの欠如と共同学習の最適化にそれぞれ対処している。公開音楽データセットによる実験結果から,MAJLは音源分離のためのSDR(Signal-to-Distortion Ratio)では0.92,ピッチ推定のためのRaw Pitch Accuracy(RPA)では2.71%,両タスクにおいて最先端の手法よりも優れていた。さらに、総合的研究は、MAJLの各コンポーネントの有効性を検証するだけでなく、異なるモデルアーキテクチャに適応する上でのMAJLの大きな一般化を示す。

関連論文リスト

Smooth-Distill: A Self-distillation Framework for Multitask Learning with Wearable Sensor Data [0.0]
本稿では,人間の活動認識(HAR)とセンサ配置検出を同時に行うように設計された,新しい自己蒸留フレームワークであるSmooth-Distillを紹介する。従来の蒸留法とは異なり, 提案手法では, モデル自体のスムーズな歴史バージョンを教師として利用している。実験結果から,Smooth-Distill は異なる評価シナリオにおける代替手法よりも一貫して優れていた。
論文参考訳（メタデータ） (2025-06-27T06:51:51Z)
Empowering Large Language Models in Wireless Communication: A Novel Dataset and Fine-Tuning Framework [81.29965270493238]
我々は,無線通信アプリケーションのための大規模言語モデル(LLM)の評価と微調整を目的とした,特殊なデータセットを開発した。データセットには、真/偽と複数選択型を含む、さまざまなマルチホップ質問が含まれている。本稿では,PVI(Pointwise V-Information)に基づく微調整手法を提案する。
論文参考訳（メタデータ） (2025-01-16T16:19:53Z)
Improving General Text Embedding Model: Tackling Task Conflict and Data Imbalance through Model Merging [33.23758947497205]
高度な埋め込みモデルは、通常、大規模マルチタスクデータと複数のタスクをまたいだ共同トレーニングを用いて開発される。これらの課題を克服するために、独立に訓練されたモデルを組み合わせて勾配の衝突を緩和し、データ分散のバランスをとるモデルマージングについて検討する。本稿では,勾配降下を用いたタスクベクトル空間内の最適モデル組合せを効率的に探索する新たな手法であるSelf Positioningを提案する。
論文参考訳（メタデータ） (2024-10-19T08:39:21Z)
Dynamic Data Mixing Maximizes Instruction Tuning for Mixture-of-Experts [20.202031878825153]
そこで本研究では,MoE命令チューニングのための新しい動的データ混合手法を提案する。 MoEのトークンルーティングの好みにインスパイアされた私たちは、データセットレベルの表現を構築し、データセット間の微妙な違いをキャプチャします。 2つのMoEモデルの結果は、下流の知識と推論タスクとオープンエンドクエリの両方に対するアプローチの有効性を示す。
論文参考訳（メタデータ） (2024-06-17T06:47:03Z)
Interpetable Target-Feature Aggregation for Multi-Task Learning based on Bias-Variance Analysis [53.38518232934096]
マルチタスク学習(MTL)は、タスク間の共有知識を活用し、一般化とパフォーマンスを改善するために設計された強力な機械学習パラダイムである。本稿では,タスククラスタリングと特徴変換の交点におけるMTL手法を提案する。両段階において、鍵となる側面は減った目標と特徴の解釈可能性を維持することである。
論文参考訳（メタデータ） (2024-06-12T08:30:16Z)
Merging Multi-Task Models via Weight-Ensembling Mixture of Experts [64.94129594112557]
異なるタスクでトレーニングされたTransformerベースのモデルを単一の統一モデルにマージすることで、すべてのタスクを同時に実行できる。従来の手法は、タスク演算によって例示され、効率的かつスケーラブルであることが証明されている。本稿では,Transformer層をMoEモジュールにアップスケーリングしながら,ほとんどのパラメータをマージすることを提案する。
論文参考訳（メタデータ） (2024-02-01T08:58:57Z)
Multimodal Imbalance-Aware Gradient Modulation for Weakly-supervised Audio-Visual Video Parsing [107.031903351176]
弱分離型音声視覚ビデオ解析(WS-AVVP)は、音声、視覚および音声視覚イベントインスタンスの時間的範囲をローカライズすることを目的としている。 WS-AVVPは、トレーニング用にビデオレベルのカテゴリラベルのみを使用して、対応するイベントカテゴリを特定することを目的としている。
論文参考訳（メタデータ） (2023-07-05T05:55:10Z)
MM-Align: Learning Optimal Transport-based Alignment Dynamics for Fast and Accurate Inference on Missing Modality Sequences [32.42505193560884]
本稿では,MM-Align という新しい手法を提案する。 MM-Alignは、モダリティシーケンス間のアライメントのダイナミクスをキャプチャし、模倣することを学ぶ。提案手法は, より正確で高速な推定を行い, 種々の不足条件下での過度適合を緩和することができる。
論文参考訳（メタデータ） (2022-10-23T17:44:56Z)
On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文参考訳（メタデータ） (2022-02-25T13:47:09Z)
Modality-Aware Triplet Hard Mining for Zero-shot Sketch-Based Image Retrieval [51.42470171051007]
本稿では,ZES-SBIR(Zero-Shot Sketch-Based Image Retrieval)問題に,クロスモダリティメトリック学習の観点から取り組む。 DMLにおける2つの基本的な学習手法、例えば分類訓練とペアトレーニングを組み合わせることで、ZS-SBIRの強力なベースラインを構築した。モータリティ・アウェア・トリプルト・ハード・マイニング(MATHM)は3種類のペア・ラーニングによってベースラインを向上することを示す。
論文参考訳（メタデータ） (2021-12-15T08:36:44Z)
Environmental sound analysis with mixup based multitask learning and cross-task fusion [0.12891210250935145]
音響シーン分類と音響イベント分類は密接に関連している2つの課題です本書では,上記の課題に対して二段階法を提案する。提案手法は,音響シーンと音響イベント分類の相補的特徴を確認した。
論文参考訳（メタデータ） (2021-03-30T05:11:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。