論文の概要: MERTech: Instrument Playing Technique Detection Using Self-Supervised
Pretrained Model With Multi-Task Finetuning
- arxiv url: http://arxiv.org/abs/2310.09853v1
- Date: Sun, 15 Oct 2023 15:00:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 17:40:16.619165
- Title: MERTech: Instrument Playing Technique Detection Using Self-Supervised
Pretrained Model With Multi-Task Finetuning
- Title(参考訳): MERTech:マルチタスクファインタニングによる自己教師付き事前学習モデルによる楽器演奏検出
- Authors: Dichucheng Li, Yinghao Ma, Weixing Wei, Qiuqiang Kong, Yulun Wu,
Mingjin Che, Fan Xia, Emmanouil Benetos, Wei Li
- Abstract要約: 本稿では,大規模未ラベル音楽データに事前学習した自己教師付き学習モデルを適用し,IPT検出タスクに微調整する。
提案手法は, フレームレベルとイベントレベルの両方のメトリクスにおいて, 複数のIMTベンチマークデータセットにおいて, 従来の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 17.307289537499184
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instrument playing techniques (IPTs) constitute a pivotal component of
musical expression. However, the development of automatic IPT detection methods
suffers from limited labeled data and inherent class imbalance issues. In this
paper, we propose to apply a self-supervised learning model pre-trained on
large-scale unlabeled music data and finetune it on IPT detection tasks. This
approach addresses data scarcity and class imbalance challenges. Recognizing
the significance of pitch in capturing the nuances of IPTs and the importance
of onset in locating IPT events, we investigate multi-task finetuning with
pitch and onset detection as auxiliary tasks. Additionally, we apply a
post-processing approach for event-level prediction, where an IPT activation
initiates an event only if the onset output confirms an onset in that frame.
Our method outperforms prior approaches in both frame-level and event-level
metrics across multiple IPT benchmark datasets. Further experiments demonstrate
the efficacy of multi-task finetuning on each IPT class.
- Abstract(参考訳): 楽器演奏技術(IPT)は、音楽表現の重要な要素である。
しかし,IPT自動検出手法の開発は,ラベル付きデータやクラス不均衡の問題に悩まされている。
本稿では,大規模未ラベル音楽データに事前学習した自己教師型学習モデルを適用し,IPT検出タスクに微調整する。
このアプローチはデータの不足とクラス不均衡の問題に対処する。
IPTのニュアンスを捕捉する際のピッチの重要性と、IPTイベントの位置決定におけるオンセットの重要性を認識し、ピッチとオンセット検出によるマルチタスクファインタニングを補助課題として検討した。
さらに、イベントレベルの予測に後処理アプローチを適用し、オンセット出力がそのフレームのオンセットを確認する場合にのみ、IPTアクティベーションがイベントを開始する。
提案手法は, フレームレベルとイベントレベルの両方のメトリクスにおいて, 複数のIMTベンチマークデータセットで先行手法より優れていた。
さらなる実験では、各IMTクラスにおけるマルチタスクファインタニングの有効性が示されている。
関連論文リスト
- BoostAdapter: Improving Vision-Language Test-Time Adaptation via Regional Bootstrapping [64.8477128397529]
本稿では,テスト時間適応フレームワークを提案する。
我々は、インスタンスに依存しない履歴サンプルとインスタンスを意識したブースティングサンプルから特徴を検索するための軽量なキー値メモリを維持している。
理論的には,本手法の背後にある合理性を正当化し,アウト・オブ・ディストリビューションとクロスドメイン・データセットの両方において,その有効性を実証的に検証する。
論文 参考訳(メタデータ) (2024-10-20T15:58:43Z) - Rethinking Class-incremental Learning in the Era of Large Pre-trained Models via Test-Time Adaptation [20.62749699589017]
クラス増分学習(クラス増分学習、class-incremental learning、CIL)は、クラスを新しいタスクから分類する逐次学習を伴う課題である。
本稿では,最初のタスクでアダプタを用いてPTMを微調整するTTACIL(Test-Time Adaptation for Class-Incremental Learning)を提案する。
私たちのTTACILは、PTMの豊富な機能によって各タスクの恩恵を受けながら、一切忘れることはありません。
論文 参考訳(メタデータ) (2023-10-17T13:06:39Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Active Finetuning: Exploiting Annotation Budget in the
Pretraining-Finetuning Paradigm [132.9949120482274]
本稿では,事前学習ファインタニングパラダイムにおけるアノテーションのためのサンプルの選択に焦点を当てる。
本研究では,アクティブな微調整タスクのためのActiveFTと呼ばれる新しい手法を提案する。
画像分類とセマンティックセグメンテーションの両方に基づくベースラインよりも優れたActiveFTの先行性能と高効率性を示す。
論文 参考訳(メタデータ) (2023-03-25T07:17:03Z) - Frame-Level Multi-Label Playing Technique Detection Using Multi-Scale
Network and Self-Attention Mechanism [6.2680838592065715]
フレームレベルのマルチラベル分類問題を定式化し,それを中国の弦楽器Guzhengに適用する。
異なるIPTの長さが異なるため,マルチスケールネットワークと自己注意を用いた新しい手法を提案する。
提案手法は, IPT検出における有効性を示すとともに, 既存の成果よりも高い性能を示す。
論文 参考訳(メタデータ) (2023-03-23T13:52:42Z) - How Does In-Context Learning Help Prompt Tuning? [55.78535874154915]
微調整された大きな言語モデルは、急速に拡大するスケールのために、ますます実用的ではないものになりつつある。
これはプロンプトチューニング(PT)のようなパラメータ効率のよい適応手法の使用を動機付け、凍ったモデルに少数のチューナブルな埋め込みを追加する。
近年,Singhalら (2022) はPTとICLを組み合わせた命令プロンプトチューニング (IPT) を提案している。
論文 参考訳(メタデータ) (2023-02-22T17:45:12Z) - Learning to Initialize: Can Meta Learning Improve Cross-task
Generalization in Prompt Tuning? [37.522581151997734]
タスク毎に追加のトークン列の埋め込みをチューニングするプロンプトチューニング(PT)は、数ショット学習において顕著なパフォーマンスを示している。
我々はメタプロンプト・チューニング(MPT)について研究し、メタ学習が(可能であれば)クロスタスクの一般化にどう役立つかを探る。
論文 参考訳(メタデータ) (2023-02-16T08:37:22Z) - SPT: Semi-Parametric Prompt Tuning for Multitask Prompted Learning [28.29889045842277]
マルチタスクによる学習は,さまざまなタスクセットを一度に一般化する上で有効だ。
マルチタスク学習のための半パラメトリックなプロンプトチューニング手法であるSPTを提案する。
論文 参考訳(メタデータ) (2022-12-21T11:18:09Z) - Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language
Models [107.05966685291067]
テスト時間プロンプトチューニング (TPT) を提案し, 適応的なプロンプトを1つのテストサンプルで学習する。
TPTはCLIPのゼロショットトップ1の精度を平均3.6%改善する。
クロスデータセットの一般化を目に見えないカテゴリで評価する際、PTは追加のトレーニングデータを使用する最先端のアプローチと同等に機能する。
論文 参考訳(メタデータ) (2022-09-15T17:55:11Z) - Weighted Training for Cross-Task Learning [71.94908559469475]
クロスタスク学習のための重み付きトレーニングアルゴリズムであるTarget-Aware Weighted Training (TAWT)を紹介する。
TAWTは実装が容易で、計算効率が高く、ハイパーパラメータチューニングがほとんど必要とせず、漸近的でない学習理論の保証を享受できることを示す。
副産物として、提案された表現に基づくタスク距離は、クロスタスク学習のいくつかの重要な側面について理論的に原則化された方法で推論することができる。
論文 参考訳(メタデータ) (2021-05-28T20:27:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。