論文の概要: Towards Human-in-the-Loop Onset Detection: A Transfer Learning Approach for Maracatu
- arxiv url: http://arxiv.org/abs/2507.04858v1
- Date: Mon, 07 Jul 2025 10:32:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.381023
- Title: Towards Human-in-the-Loop Onset Detection: A Transfer Learning Approach for Maracatu
- Title(参考訳): 対人・対人・対人・対人・対人・対人・対人・対人・対人・対人・対人・対人・対人・対人・対人・対人・対人・対人・対人・対人・対人・対人・対人・対人
- Authors: António Sá Pinto,
- Abstract要約: Afro-Brazilian Maracatu の伝統における音楽のオンセット検出のための伝達学習戦略について検討する。
我々は2つの時間的畳み込みネットワークアーキテクチャを適用した。1つはオンセット検出(intra-task)、もう1つはビートトラッキング(inter-task)である。
5秒のアノテートスニペットのみを用いて,従来の5種類の打楽器の層方向のトレーニング戦略により,これらのモデルを微調整する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We explore transfer learning strategies for musical onset detection in the Afro-Brazilian Maracatu tradition, which features complex rhythmic patterns that challenge conventional models. We adapt two Temporal Convolutional Network architectures: one pre-trained for onset detection (intra-task) and another for beat tracking (inter-task). Using only 5-second annotated snippets per instrument, we fine-tune these models through layer-wise retraining strategies for five traditional percussion instruments. Our results demonstrate significant improvements over baseline performance, with F1 scores reaching up to 0.998 in the intra-task setting and improvements of over 50 percentage points in best-case scenarios. The cross-task adaptation proves particularly effective for time-keeping instruments, where onsets naturally align with beat positions. The optimal fine-tuning configuration varies by instrument, highlighting the importance of instrument-specific adaptation strategies. This approach addresses the challenges of underrepresented musical traditions, offering an efficient human-in-the-loop methodology that minimizes annotation effort while maximizing performance. Our findings contribute to more inclusive music information retrieval tools applicable beyond Western musical contexts.
- Abstract(参考訳): 従来のモデルに挑戦する複雑なリズミカルパターンを特徴とするAfro-Brazilian Maracatu伝統において,音楽のオンセット検出のためのトランスファー学習戦略を検討する。
我々は2つの時間的畳み込みネットワークアーキテクチャを適用し、一方はオンセット検出(intra-task)のために事前訓練され、もう一方はビートトラッキング(inter-task)のために訓練された。
5秒のアノテートスニペットのみを用いて,従来の5種類の打楽器の層方向のトレーニング戦略により,これらのモデルを微調整する。
その結果,F1スコアはタスク内設定で0.998まで到達し,ベストケースでは50ポイント以上向上した。
クロスタスク適応は、オンセットがビート位置と自然に整合する時計楽器に特に有効であることを示す。
最適な微調整構成は楽器によって異なり、楽器固有の適応戦略の重要性を強調している。
このアプローチは、パフォーマンスを最大化しながらアノテーションの労力を最小限に抑える効率的なヒューマン・イン・ザ・ループ手法を提供することによって、過小評価された音楽伝統の課題に対処する。
本研究は,西洋音楽の文脈を超えて,より包括的な音楽情報検索ツールに寄与する。
関連論文リスト
- MuseBarControl: Enhancing Fine-Grained Control in Symbolic Music Generation through Pre-Training and Counterfactual Loss [51.85076222868963]
制御信号と対応する音楽トークンを直接リンクする事前学習タスクを導入する。
次に、生成した音楽と制御プロンプトとの整合性を向上する新たな対実的損失を実現する。
論文 参考訳(メタデータ) (2024-07-05T08:08:22Z) - DITTO: Diffusion Inference-Time T-Optimization for Music Generation [49.90109850026932]
Diffusion Inference-Time T-Optimization (DITTO) は、事前訓練されたテキストから音楽への拡散モデルを推論時に制御するためのフレームワークである。
我々は、インペイント、アウトペイント、ループ化、強度、メロディ、音楽構造制御など、驚くほど幅広い音楽生成応用を実証する。
論文 参考訳(メタデータ) (2024-01-22T18:10:10Z) - Improving Few-Shot Generalization by Exploring and Exploiting Auxiliary
Data [100.33096338195723]
補助データを用いたFew-shot Learning(FLAD)に焦点を当てる。
FLADは、一般化を改善するために、数ショットの学習中に補助データへのアクセスを前提としている。
提案するアルゴリズムは EXP3-FLAD と UCB1-FLAD の2つである。
論文 参考訳(メタデータ) (2023-02-01T18:59:36Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z) - Supervised and Unsupervised Learning of Audio Representations for Music
Understanding [9.239657838690226]
トレーニング済みデータセットのドメインが、ダウンストリームタスクに対するオーディオ埋め込みの結果の妥当性にどのように影響するかを示す。
大規模専門家による注釈付き音楽データセットの教師あり学習により訓練されたモデルが,最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2022-10-07T20:07:35Z) - Adaptive Few-Shot Learning Algorithm for Rare Sound Event Detection [24.385226516231004]
そこで本研究では,メトリックベースの数ショット学習フレームワークに容易に組み込むことができる新しいタスク適応型モジュールを提案する。
我々のモジュールはベースライン法よりも2つのデータセットの性能をかなり改善します。
論文 参考訳(メタデータ) (2022-05-24T03:13:12Z) - Deep-Learning Architectures for Multi-Pitch Estimation: Towards Reliable
Evaluation [7.599399338954308]
マルチピッチ推定は、ポリフォニック録音におけるピッチの同時動作を検出することを目的としている。
本稿では,CNN,U-net構造,自己意図的コンポーネントに基づくアーキテクチャを実現する。
MusicNetとSchubert Winterreiseのデータセットを用いたマルチピッチ推定のために,これらのアーキテクチャのバリエーションを比較した。
論文 参考訳(メタデータ) (2022-02-18T13:52:21Z) - BERT-like Pre-training for Symbolic Piano Music Classification Tasks [15.02723006489356]
本稿では,BERT (Bidirectional Representations from Transformers) を用いたシンボリックピアノ音楽分類のベンチマーク研究について述べる。
BERT手法を用いて2つの12層トランスフォーマーモデルを事前訓練し、4つの下流分類タスクでそれらを微調整する。
評価の結果,BERTアプローチはリカレントニューラルネットワーク(RNN)ベースラインよりも高い分類精度が得られた。
論文 参考訳(メタデータ) (2021-07-12T07:03:57Z) - Faster Meta Update Strategy for Noise-Robust Deep Learning [62.08964100618873]
我々は,メタグラデーションの最も高価なステップをより高速なレイヤワイズ近似に置き換えるために,新しいファMUS(Faster Meta Update Strategy)を導入する。
本手法は,同等あるいはさらに優れた一般化性能を維持しつつ,トレーニング時間の3分の2を節約できることを示す。
論文 参考訳(メタデータ) (2021-04-30T16:19:07Z) - Fast accuracy estimation of deep learning based multi-class musical
source separation [79.10962538141445]
本稿では,ニューラルネットワークのトレーニングやチューニングを行うことなく,任意のデータセットにおける楽器の分離性を評価する手法を提案する。
理想的な比マスクを持つオラクルの原理に基づいて、我々の手法は最先端のディープラーニング手法の分離性能を推定するための優れたプロキシである。
論文 参考訳(メタデータ) (2020-10-19T13:05:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。