論文の概要: Music Tempo Estimation on Solo Instrumental Performance
- arxiv url: http://arxiv.org/abs/2504.18502v1
- Date: Fri, 25 Apr 2025 17:14:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.852545
- Title: Music Tempo Estimation on Solo Instrumental Performance
- Title(参考訳): ソロ楽器演奏のテンポ推定
- Authors: Zhanhong He, Roberto Togneri, Xiangyu Zhang,
- Abstract要約: 本研究では,最先端のテンポ推定手法について検討し,その演奏性を評価する。
声帯と器楽の混在を前提とした時間畳み込みニューラルネットワーク(TCN)とリカレントニューラルネットワーク(RNN)モデルを用いた。
新たにトレーニングしたTCNモデルでは,Acc1が61.1%の事前訓練したTCNモデルと比較して,ギターテンポ推定においてAcc1の基準値が38.6%向上した。
- 参考スコア(独自算出の注目度): 16.416649111000616
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recently, automatic music transcription has made it possible to convert musical audio into accurate MIDI. However, the resulting MIDI lacks music notations such as tempo, which hinders its conversion into sheet music. In this paper, we investigate state-of-the-art tempo estimation techniques and evaluate their performance on solo instrumental music. These include temporal convolutional network (TCN) and recurrent neural network (RNN) models that are pretrained on massive of mixed vocals and instrumental music, as well as TCN models trained specifically with solo instrumental performances. Through evaluations on drum, guitar, and classical piano datasets, our TCN models with the new training scheme achieved the best performance. Our newly trained TCN model increases the Acc1 metric by 38.6% for guitar tempo estimation, compared to the pretrained TCN model with an Acc1 of 61.1%. Although our trained TCN model is twice as accurate as the pretrained TCN model in estimating classical piano tempo, its Acc1 is only 50.9%. To improve the performance of deep learning models, we investigate their combinations with various post-processing methods. These post-processing techniques effectively enhance the performance of deep learning models when they struggle to estimate the tempo of specific instruments.
- Abstract(参考訳): 近年,音声の自動書き起こしにより,音声を正確なMIDIに変換することが可能になった。
しかし、MIDIはテンポのような音楽の表記に欠けており、シート音楽への転換を妨げている。
本稿では,最先端のテンポ推定手法について検討し,その演奏性を評価する。
その中には、時間的畳み込みネットワーク(TCN)とリカレントニューラルネットワーク(RNN)モデルが含まれており、混合ボーカルと楽器音楽の大量で事前訓練されている他、ソロの楽器演奏に特化して訓練されたTCNモデルも含まれている。
ドラム、ギター、クラシックピアノのデータセットの評価を通じて、新しいトレーニングスキームを用いたTCNモデルは最高のパフォーマンスを得た。
新たにトレーニングしたTCNモデルでは,Acc1が61.1%の事前訓練したTCNモデルと比較して,ギターテンポ推定においてAcc1の基準値が38.6%向上した。
訓練されたTCNモデルは、古典的なピアノテンポの推定において、事前訓練されたTCNモデルの2倍正確であるが、Acc1はわずか50.9%である。
深層学習モデルの性能向上のために,様々なポストプロセッシング手法と組み合わせて検討する。
これらの後処理技術は、特定の楽器のテンポを推定するのに苦労する深層学習モデルの性能を効果的に向上させる。
関連論文リスト
- Parameter-Efficient Transfer Learning for Music Foundation Models [51.61531917413708]
音楽基礎モデルのパラメータ効率変換学習(PETL)について検討する。
PETL法は、音楽の自動タグ付けにおいて、探索と微調整の両方に優れる。
PETL法は、トレーニングコストを大幅に削減し、微調整と同様の結果を得る。
論文 参考訳(メタデータ) (2024-11-28T20:50:40Z) - DITTO: Diffusion Inference-Time T-Optimization for Music Generation [49.90109850026932]
Diffusion Inference-Time T-Optimization (DITTO) は、事前訓練されたテキストから音楽への拡散モデルを推論時に制御するためのフレームワークである。
我々は、インペイント、アウトペイント、ループ化、強度、メロディ、音楽構造制御など、驚くほど幅広い音楽生成応用を実証する。
論文 参考訳(メタデータ) (2024-01-22T18:10:10Z) - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z) - Comparision Of Adversarial And Non-Adversarial LSTM Music Generative
Models [2.569647910019739]
この研究は、MIDIデータに基づいて、リカレントニューラルネットワーク音楽作曲家の敵対的および非敵対的な訓練を実装し、比較する。
この評価は, 対人訓練がより審美的に楽しむ音楽を生み出すことを示唆している。
論文 参考訳(メタデータ) (2022-11-01T20:23:49Z) - Music Source Separation with Band-split RNN [25.578400006180527]
本稿では,周波数領域モデルを提案する。このモデルでは,混合物のスペクトルをサブバンドに分割し,インターリーブバンドレベルおよびシーケンスレベルのモデリングを行う。
サブバンドの帯域幅の選択は、対象源の特性に関する事前知識または専門知識によって決定できる。
実験の結果、BSRNNはMUSDB18-HQデータセットのみをトレーニングし、ミュージック・デミキシング(MDX)チャレンジ2021において、いくつかの上位モデルを上回った。
論文 参考訳(メタデータ) (2022-09-30T01:49:52Z) - BERT-like Pre-training for Symbolic Piano Music Classification Tasks [15.02723006489356]
本稿では,BERT (Bidirectional Representations from Transformers) を用いたシンボリックピアノ音楽分類のベンチマーク研究について述べる。
BERT手法を用いて2つの12層トランスフォーマーモデルを事前訓練し、4つの下流分類タスクでそれらを微調整する。
評価の結果,BERTアプローチはリカレントニューラルネットワーク(RNN)ベースラインよりも高い分類精度が得られた。
論文 参考訳(メタデータ) (2021-07-12T07:03:57Z) - Deep Neural Network for Musical Instrument Recognition using MFCCs [0.6445605125467573]
楽器認識は、その音響によって楽器の識別を行うタスクである。
本稿では,20種類の楽器の分類を訓練した人工ニューラルネットワーク(ann)モデルを用いた。
論文 参考訳(メタデータ) (2021-05-03T15:10:34Z) - Downbeat Tracking with Tempo-Invariant Convolutional Neural Networks [0.0]
畳み込みニューラルネットワーク(CNN)において,この技術を実現するための決定論的時間ワープ演算を提案する。
トレーニングデータセットに存在するテンポでリズムパターンを学習する従来のディープラーニングアプローチとは異なり、我々のモデルで学んだパターンはテンポ不変である。
提案モデルの一般化の利点は、GTZANとBallroomのデータセットで示されているように、実際の音楽に拡張される。
論文 参考訳(メタデータ) (2021-02-03T20:25:36Z) - Fast accuracy estimation of deep learning based multi-class musical
source separation [79.10962538141445]
本稿では,ニューラルネットワークのトレーニングやチューニングを行うことなく,任意のデータセットにおける楽器の分離性を評価する手法を提案する。
理想的な比マスクを持つオラクルの原理に基づいて、我々の手法は最先端のディープラーニング手法の分離性能を推定するための優れたプロキシである。
論文 参考訳(メタデータ) (2020-10-19T13:05:08Z) - Score-informed Networks for Music Performance Assessment [64.12728872707446]
MPAモデルにスコア情報を組み込んだディープニューラルネットワークに基づく手法はまだ研究されていない。
スコアインフォームド性能評価が可能な3つのモデルを提案する。
論文 参考訳(メタデータ) (2020-08-01T07:46:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。