論文の概要: Global Structure-Aware Drum Transcription Based on Self-Attention
Mechanisms
- arxiv url: http://arxiv.org/abs/2105.05791v1
- Date: Wed, 12 May 2021 17:04:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-13 12:12:41.281530
- Title: Global Structure-Aware Drum Transcription Based on Self-Attention
Mechanisms
- Title(参考訳): 自己愛機構に基づく大域的構造認識ドラム転写
- Authors: Ryoto Ishizuka, Ryo Nishikimi, Kazuyoshi Yoshii
- Abstract要約: 本稿では、音楽信号からタタムレベルのドラムスコアを直接推定する自動ドラム転写(ADT)法について述べる。
ドラムスコアのグローバル反復構造を捉えるために,タタム同期位置符号化を用いた自己アテンション機構をデコーダに導入する。
実験の結果,提案モデルがタタムレベル誤差率とフレームレベルf測定値で従来のrnnモデルを上回ることがわかった。
- 参考スコア(独自算出の注目度): 18.5148472561169
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper describes an automatic drum transcription (ADT) method that
directly estimates a tatum-level drum score from a music signal, in contrast to
most conventional ADT methods that estimate the frame-level onset probabilities
of drums. To estimate a tatum-level score, we propose a deep transcription
model that consists of a frame-level encoder for extracting the latent features
from a music signal and a tatum-level decoder for estimating a drum score from
the latent features pooled at the tatum level. To capture the global repetitive
structure of drum scores, which is difficult to learn with a recurrent neural
network (RNN), we introduce a self-attention mechanism with tatum-synchronous
positional encoding into the decoder. To mitigate the difficulty of training
the self-attention-based model from an insufficient amount of paired data and
improve the musical naturalness of the estimated scores, we propose a
regularized training method that uses a global structure-aware masked language
(score) model with a self-attention mechanism pretrained from an extensive
collection of drum scores. Experimental results showed that the proposed
regularized model outperformed the conventional RNN-based model in terms of the
tatum-level error rate and the frame-level F-measure, even when only a limited
amount of paired data was available so that the non-regularized model
underperformed the RNN-based model.
- Abstract(参考訳): 本稿では,ドラムのフレームレベルのオンセット確率を推定する従来のADT法とは対照的に,音楽信号からタトゥムレベルのドラムスコアを直接推定する自動ドラム書き起こし(ADT)手法について述べる。
タトゥムレベルスコアを推定するために,音楽信号から潜時特徴を抽出するフレームレベルエンコーダと,タトゥムレベルにプールされた潜時特徴からドラムスコアを推定するタトゥムレベルデコーダとからなる深部転写モデルを提案する。
繰り返しニューラルネットワーク(RNN)で学習し難いドラムスコアのグローバルな繰り返し構造を捉えるため,デコーダにタタム同期位置符号化を用いた自己注意機構を導入する。
組データの不足量から自己愛着型モデルの訓練の難しさを軽減し、推定スコアの音楽的自然性を向上させるため、ドラムスコアの膨大なコレクションから事前学習された自己愛着機構を備えたグローバル構造認識マスク言語(score)モデルを用いた正規化訓練手法を提案する。
実験結果から, 正規化モデルが従来のRNNモデルよりも, タタムレベルの誤差率とフレームレベルのF尺度で優れていたことが判明した。
関連論文リスト
- Skeleton2vec: A Self-supervised Learning Framework with Contextualized
Target Representations for Skeleton Sequence [56.092059713922744]
予測対象として高レベルな文脈化機能を使用することで,優れた性能が得られることを示す。
具体的には、シンプルで効率的な3D行動表現学習フレームワークであるSkeleton2vecを提案する。
提案するSkeleton2vecは,従来の手法より優れ,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-01-01T12:08:35Z) - Dynamic Scheduled Sampling with Imitation Loss for Neural Text
Generation [10.306522595622651]
トレーニング時間精度のみに基づいてスケジュールを維持するDySI(Dynamic Scheduled Sampling with Imitation Loss)を導入する。
DySIは標準的な機械翻訳ベンチマークの顕著な改善を実現し、他のテキスト生成モデルの堅牢性を大幅に改善した。
論文 参考訳(メタデータ) (2023-01-31T16:41:06Z) - Low-Resource Music Genre Classification with Cross-Modal Neural Model
Reprogramming [129.4950757742912]
ニューラルモデル再プログラミング(NMR)の概念に基づく低リソース(音楽)分類のための事前学習モデルを活用する新しい手法を提案する。
NMRは、凍結した事前学習モデルの入力を変更することにより、ソースドメインからターゲットドメインへの事前学習モデルの再取得を目指している。
実験結果から,大規模データセットに事前学習したニューラルモデルは,この再プログラミング手法を用いて,音楽ジャンルの分類に成功できることが示唆された。
論文 参考訳(メタデータ) (2022-11-02T17:38:33Z) - Self-Contrastive Learning based Semi-Supervised Radio Modulation
Classification [6.089994098441994]
本稿では,自動変調分類(AMC)のための半教師付き学習フレームワークを提案する。
自己教師付きコントラスト学習事前学習ステップを用いてラベル付き信号データを慎重に利用することにより,少ないラベル付きデータに対して高い性能を実現する。
公開データセットを用いた半教師付きフレームワークの性能評価を行った。
論文 参考訳(メタデータ) (2022-03-29T22:21:14Z) - Churn Reduction via Distillation [54.5952282395487]
本研究は, 基礎モデルを教師として用いた蒸留によるトレーニングと, 予測的チャーンに対する明示的な制約によるトレーニングとの等価性を示す。
次に, 蒸留が近年の多くのベースラインに対する低チャーン訓練に有効であることを示す。
論文 参考訳(メタデータ) (2021-06-04T18:03:31Z) - Firearm Detection via Convolutional Neural Networks: Comparing a
Semantic Segmentation Model Against End-to-End Solutions [68.8204255655161]
武器の脅威検出とライブビデオからの攻撃的な行動は、潜在的に致命的な事故の迅速検出と予防に使用できる。
これを実現する一つの方法は、人工知能と、特に画像分析のための機械学習を使用することです。
従来のモノリシックなエンド・ツー・エンドのディープラーニングモデルと、セマンティクスセグメンテーションによって火花を検知する単純なニューラルネットワークのアンサンブルに基づく前述したモデルを比較した。
論文 参考訳(メタデータ) (2020-12-17T15:19:29Z) - Tatum-Level Drum Transcription Based on a Convolutional Recurrent Neural
Network with Language Model-Based Regularized Training [20.69310034107256]
本稿では,音楽信号からドラムの開始時刻を$textittatum$レベルで検出するニューラルドラムの書き起こし手法について述べる。
論文 参考訳(メタデータ) (2020-10-08T03:47:25Z) - Score-informed Networks for Music Performance Assessment [64.12728872707446]
MPAモデルにスコア情報を組み込んだディープニューラルネットワークに基づく手法はまだ研究されていない。
スコアインフォームド性能評価が可能な3つのモデルを提案する。
論文 参考訳(メタデータ) (2020-08-01T07:46:24Z) - NAT: Noise-Aware Training for Robust Neural Sequence Labeling [30.91638109413785]
入力におけるシーケンスラベリングのロバスト性を改善する2つのノイズ・アウェア・トレーニング(NAT)目標を提案する。
我々のデータ拡張法は、クリーンなサンプルとノイズの多いサンプルの混合を用いてニューラルモデルを訓練する一方、安定性のトレーニングアルゴリズムは、ノイズ不変の潜在表現を作成することを奨励する。
英語とドイツ語の名前付きエンティティ認識ベンチマークの実験では、NATは人気のあるシークエンスラベリングモデルの堅牢性を一貫して改善した。
論文 参考訳(メタデータ) (2020-05-14T17:30:06Z) - Document Ranking with a Pretrained Sequence-to-Sequence Model [56.44269917346376]
関連ラベルを「ターゲット語」として生成するためにシーケンス・ツー・シーケンス・モデルをどのように訓練するかを示す。
提案手法は,データポーラ方式におけるエンコーダのみのモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2020-03-14T22:29:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。