論文の概要: Frame-Level Multi-Label Playing Technique Detection Using Multi-Scale
Network and Self-Attention Mechanism
- arxiv url: http://arxiv.org/abs/2303.13272v1
- Date: Thu, 23 Mar 2023 13:52:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 14:06:56.355430
- Title: Frame-Level Multi-Label Playing Technique Detection Using Multi-Scale
Network and Self-Attention Mechanism
- Title(参考訳): マルチスケールネットワークとセルフアテンション機構を用いたフレームレベルマルチラベル演奏検出
- Authors: Dichucheng Li, Mingjin Che, Wenwu Meng, Yulun Wu, Yi Yu, Fan Xia, Wei
Li
- Abstract要約: フレームレベルのマルチラベル分類問題を定式化し,それを中国の弦楽器Guzhengに適用する。
異なるIPTの長さが異なるため,マルチスケールネットワークと自己注意を用いた新しい手法を提案する。
提案手法は, IPT検出における有効性を示すとともに, 既存の成果よりも高い性能を示す。
- 参考スコア(独自算出の注目度): 6.2680838592065715
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instrument playing technique (IPT) is a key element of musical presentation.
However, most of the existing works for IPT detection only concern monophonic
music signals, yet little has been done to detect IPTs in polyphonic
instrumental solo pieces with overlapping IPTs or mixed IPTs. In this paper, we
formulate it as a frame-level multi-label classification problem and apply it
to Guzheng, a Chinese plucked string instrument. We create a new dataset,
Guzheng\_Tech99, containing Guzheng recordings and onset, offset, pitch, IPT
annotations of each note. Because different IPTs vary a lot in their lengths,
we propose a new method to solve this problem using multi-scale network and
self-attention. The multi-scale network extracts features from different
scales, and the self-attention mechanism applied to the feature maps at the
coarsest scale further enhances the long-range feature extraction. Our approach
outperforms existing works by a large margin, indicating its effectiveness in
IPT detection.
- Abstract(参考訳): 楽器演奏技術(IPT)は、音楽プレゼンテーションの重要な要素である。
IPT検出のための既存の研究の多くは、モノフォニックな音楽信号のみに関するものであるが、重なり合うICTや混合ICTを持つ多声楽器の独奏曲において、ICTを検出するためにはほとんど行われていない。
本稿では,これをフレームレベルのマルチラベル分類問題として定式化し,中国の弦楽器Guzhengに適用する。
我々は、guzheng recordings と onset, offset, pitch, ipt annotations を含む新しいデータセット guzheng\_tech99 を作成する。
異なるiptはその長さによって大きく異なるため,マルチスケールネットワークとセルフアテンションを用いてこの問題を解決する新しい手法を提案する。
マルチスケールネットワークは、異なるスケールから特徴を抽出し、粗いスケールで特徴マップに適用する自己認識機構により、長距離特徴抽出をさらに強化する。
提案手法は, IPT検出の有効性を示唆し, 既存の成果よりも高い性能を示す。
関連論文リスト
- LC-Protonets: Multi-label Few-shot learning for world music audio tagging [65.72891334156706]
ラベル結合型プロトタイプネットワーク(LC-Protonets)を導入し,複数ラベルの複数ショット分類の問題に対処する。
LC-Protonetsは、限られたトレーニング項目に存在するラベルのパワーセットから、ラベルの組み合わせごとに1つのプロトタイプを生成する。
本手法は,様々な文化をカバーし,現代音楽と伝統音楽の両方を含む,多様な音楽データセットにまたがる自動音声タグ付けに適用する。
論文 参考訳(メタデータ) (2024-09-17T15:13:07Z) - OTSeg: Multi-prompt Sinkhorn Attention for Zero-Shot Semantic Segmentation [57.84148140637513]
Multi-Prompts Sinkhorn Attention (MPSA)は、マルチモーダル設定でTransformerフレームワーク内のクロスアテンションメカニズムを効果的に置き換える。
OTSegは、Zero-Shot Semantic (ZS3)タスクで大幅に向上した、最先端のSOTA(State-of-the-art)パフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-03-21T07:15:37Z) - MERTech: Instrument Playing Technique Detection Using Self-Supervised
Pretrained Model With Multi-Task Finetuning [17.307289537499184]
本稿では,大規模未ラベル音楽データに事前学習した自己教師付き学習モデルを適用し,IPT検出タスクに微調整する。
提案手法は, フレームレベルとイベントレベルの両方のメトリクスにおいて, 複数のIMTベンチマークデータセットにおいて, 従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-10-15T15:00:00Z) - Multi-Resolution Audio-Visual Feature Fusion for Temporal Action
Localization [8.633822294082943]
本稿ではMRAV-FF(Multi-Resolution Audio-Visual Feature Fusion)を紹介する。
MRAV-FFは、異なる時間分解能間でオーディオ視覚データをマージする革新的な手法である。
論文 参考訳(メタデータ) (2023-10-05T10:54:33Z) - Playing Technique Detection by Fusing Note Onset Information in Guzheng
Performance [10.755276589673434]
完全畳み込みネットワークを用いたエンドツーエンドのグジエン演奏技術検出システムを提案する。
提案手法は, フレームレベルの精度87.97%, ノートレベルのF1スコア80.76%を達成し, 既存の作品のマージンを大きく上回っている。
論文 参考訳(メタデータ) (2022-09-19T06:02:37Z) - A Lightweight Instrument-Agnostic Model for Polyphonic Note
Transcription and Multipitch Estimation [6.131772929312604]
楽器の書き起こしのための軽量ニューラルネットワークを提案する。
我々のモデルは、フレームワイドのオンセット、乗算、ノートのアクティベーションを共同で予測するように訓練されている。
ベンチマークの結果、我々のシステムのメモ推定は、同等のベースラインよりもかなり優れていることが示されています。
論文 参考訳(メタデータ) (2022-03-18T12:07:36Z) - MFNet: Multi-filter Directive Network for Weakly Supervised Salient
Object Detection [104.0177412274975]
安価なアノテーションのみを使用して、CNNベースのサリエンシネットワークをトレーニングするための、弱教師付きサリエントオブジェクト検出(WSOD)ターゲット。
既存のWSOD手法は、低コストなアノテーションから単一の「高品質」擬似ラベルを追求し、それらのサリエンシネットワークを開発するために様々な手法を採用している。
我々は,複数のラベルからより包括的で正確なサリエンシ・キューを統合するために,新しいマルチ擬似ラベルフレームワークを導入する。
論文 参考訳(メタデータ) (2021-12-03T06:12:42Z) - Automatic Polyp Segmentation via Multi-scale Subtraction Network [100.94922587360871]
臨床的には、正確なポリープセグメンテーションは大腸癌の早期発見に重要な情報を提供する。
既存のほとんどの手法はU字型構造に基づいており、デコーダで段階的に異なるレベルの特徴を融合させるために要素ワイド付加または結合を用いる。
大腸内視鏡画像からポリプを抽出するマルチスケールサブトラクションネットワーク(MSNet)を提案する。
論文 参考訳(メタデータ) (2021-08-11T07:54:07Z) - Pitch-Informed Instrument Assignment Using a Deep Convolutional Network
with Multiple Kernel Shapes [22.14133334414372]
本稿では,音階楽器の割り当てを行うための深層畳み込みニューラルネットワークを提案する。
7つの楽器クラスを用いたMusicNetデータセット実験により,本手法は平均Fスコア0.904を達成可能であることが示された。
論文 参考訳(メタデータ) (2021-07-28T19:48:09Z) - Fast accuracy estimation of deep learning based multi-class musical
source separation [79.10962538141445]
本稿では,ニューラルネットワークのトレーニングやチューニングを行うことなく,任意のデータセットにおける楽器の分離性を評価する手法を提案する。
理想的な比マスクを持つオラクルの原理に基づいて、我々の手法は最先端のディープラーニング手法の分離性能を推定するための優れたプロキシである。
論文 参考訳(メタデータ) (2020-10-19T13:05:08Z) - Multi-Scale Positive Sample Refinement for Few-Shot Object Detection [61.60255654558682]
Few-shot Object Detection (FSOD) は、ディテクターがトレーニングインスタンスをほとんど持たない未確認のクラスに適応するのに役立つ。
FSODにおけるオブジェクトスケールを拡張化するためのMPSR(Multi-scale Positive Sample Refinement)アプローチを提案する。
MPSRは、オブジェクトピラミッドとして多スケールの正のサンプルを生成し、様々なスケールで予測を洗練させる。
論文 参考訳(メタデータ) (2020-07-18T09:48:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。