論文の概要: Beat this! Accurate beat tracking without DBN postprocessing
- arxiv url: http://arxiv.org/abs/2407.21658v1
- Date: Wed, 31 Jul 2024 14:59:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-01 12:27:41.657630
- Title: Beat this! Accurate beat tracking without DBN postprocessing
- Title(参考訳): DBN後処理なしでの正確なビートトラッキング
- Authors: Francesco Foscarin, Jan Schlüter, Gerhard Widmer,
- Abstract要約: 本研究では,多種多様な音楽範囲にまたがる一般性と高精度の2つの目標を用いて,ビートとダウンビートを追跡するシステムを提案する。
ソロ楽器録音や時間変化のある曲,テンポ変化の高いクラシック音楽など,複数のデータセットをトレーニングすることで,汎用性を実現する。
高精度にアノテーションの小さな時間シフトに耐性のある損失関数を開発し、周波数や時間とともに変換器と畳み込みを交互に行うアーキテクチャを開発した。
- 参考スコア(独自算出の注目度): 4.440100868992127
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a system for tracking beats and downbeats with two objectives: generality across a diverse music range, and high accuracy. We achieve generality by training on multiple datasets -- including solo instrument recordings, pieces with time signature changes, and classical music with high tempo variations -- and by removing the commonly used Dynamic Bayesian Network (DBN) postprocessing, which introduces constraints on the meter and tempo. For high accuracy, among other improvements, we develop a loss function tolerant to small time shifts of annotations, and an architecture alternating convolutions with transformers either over frequency or time. Our system surpasses the current state of the art in F1 score despite using no DBN. However, it can still fail, especially for difficult and underrepresented genres, and performs worse on continuity metrics, so we publish our model, code, and preprocessed datasets, and invite others to beat this.
- Abstract(参考訳): 本研究では,多種多様な音楽範囲にまたがる一般性と高精度の2つの目標を用いて,ビートとダウンビートを追跡するシステムを提案する。
我々は,複数のデータセット(ソロ楽器録音,時間変化のある曲,テンポ変化の高いクラシック音楽など)をトレーニングし,一般的な動的ベイズネットワーク(DBN)ポストプロセッシングを取り除き,メーターとテンポの制約を導入することで,汎用性を実現する。
高精度化のために、アノテーションの小さな時間シフトに耐性のあるロス関数を開発し、周波数や時間とともに変換器と畳み込みを交互に行うアーキテクチャを開発した。
本システムはDBNを使用しないにもかかわらずF1スコアの最先端を超越している。
しかし、特に難解で表現不足なジャンルでは失敗する可能性があり、継続性メトリクスが悪化しているため、私たちはモデル、コード、前処理されたデータセットを公開し、他の人にこれを打ち負かそうとしています。
関連論文リスト
- Quantifying the Corpus Bias Problem in Automatic Music Transcription Systems [3.5570874721859016]
AMT(Automatic Music Transcription)は、音楽の音声録音における音符認識のタスクである。
我々は、音楽と音の2つの主要な分布シフト源を同定する。
2つの新しい実験セットにおいて,複数のSotA AMTシステムの性能評価を行った。
論文 参考訳(メタデータ) (2024-08-08T19:40:28Z) - MuseBarControl: Enhancing Fine-Grained Control in Symbolic Music Generation through Pre-Training and Counterfactual Loss [51.85076222868963]
制御信号と対応する音楽トークンを直接リンクする事前学習タスクを導入する。
次に、生成した音楽と制御プロンプトとの整合性を向上する新たな対実的損失を実現する。
論文 参考訳(メタデータ) (2024-07-05T08:08:22Z) - Multi-view MidiVAE: Fusing Track- and Bar-view Representations for Long
Multi-track Symbolic Music Generation [50.365392018302416]
長い多トラックのシンボリック・ミュージックを効果的にモデル化・生成するVAE手法の先駆者の一つであるMulti-view MidiVAEを提案する。
我々は,ハイブリッドな変分符号化・復号化戦略を用いて,楽器の特徴と調和,および楽曲のグローバルおよびローカルな情報に焦点をあてる。
論文 参考訳(メタデータ) (2024-01-15T08:41:01Z) - Multitrack Music Transcription with a Time-Frequency Perceiver [6.617487928813374]
マルチトラック音楽の書き起こしは、複数の楽器の音符に入力された音声を同時に書き起こすことを目的としている。
本稿では,マルチトラック転写のための音声入力の時間周波数表現をモデル化する,新しいディープニューラルネットワークアーキテクチャPerceiver TFを提案する。
論文 参考訳(メタデータ) (2023-06-19T08:58:26Z) - Museformer: Transformer with Fine- and Coarse-Grained Attention for
Music Generation [138.74751744348274]
本研究では,音楽生成に新たな細粒度・粗粒度対応トランスフォーマーであるMuseformerを提案する。
具体的には、細かな注意を払って、特定のバーのトークンは、音楽構造に最も関係のあるバーのトークンに、直接参加する。
粗い注意を払って、トークンは計算コストを減らすために、それぞれのトークンではなく他のバーの要約にのみ参加する。
論文 参考訳(メタデータ) (2022-10-19T07:31:56Z) - SongDriver: Real-time Music Accompaniment Generation without Logical
Latency nor Exposure Bias [15.7153621508319]
SongDriverは論理遅延や露出バイアスのないリアルタイム音楽伴奏生成システムである。
SongDriverを、いくつかのオープンソースのデータセットと、中国風のモダンなポップミュージックスコアから構築されたオリジナルのaiSongデータセットでトレーニングします。
その結果,SongDriverは客観的および主観的指標の両方において既存のSOTAモデルよりも優れていた。
論文 参考訳(メタデータ) (2022-09-13T15:05:27Z) - Multitrack Music Transformer [36.91519546327085]
短いシーケンス長を維持しながら多様な楽器のセットを表現できる新しいマルチトラック音楽表現を提案する。
提案するMultitrack Music Transformer (MMT) は,最先端システムと同等の性能を実現する。
論文 参考訳(メタデータ) (2022-07-14T15:06:37Z) - Unaligned Supervision For Automatic Music Transcription in The Wild [1.2183405753834562]
NoteEMは、トランクレーバーを同時に訓練し、スコアを対応するパフォーマンスに合わせる方法である。
我々は、MAPSデータセットのSOTAノートレベル精度と、データセット間の評価において好適なマージンを報告した。
論文 参考訳(メタデータ) (2022-04-28T17:31:43Z) - A Closer Look at Temporal Sentence Grounding in Videos: Datasets and
Metrics [70.45937234489044]
2つの広く使用されているTSGVデータセット(Charades-STAとActivityNet Captions)を再編成し、トレーニング分割と異なるものにします。
基本的なIoUスコアを校正するために、新しい評価基準「dR@$n$,IoU@$m$」を導入する。
すべての結果は、再編成されたデータセットと新しいメトリクスがTSGVの進捗をよりよく監視できることを示している。
論文 参考訳(メタデータ) (2021-01-22T09:59:30Z) - PopMAG: Pop Music Accompaniment Generation [190.09996798215738]
単一シーケンスでの同時マルチトラック生成が可能なMUlti-track MIDI表現(MuMIDI)を提案する。
MuMIDIはシーケンス長を拡大し、長期音楽モデリングの新しい課題をもたらす。
我々は,ポップミュージックの伴奏生成をPopMAGと呼ぶ。
論文 参考訳(メタデータ) (2020-08-18T02:28:36Z) - Temporal Calibrated Regularization for Robust Noisy Label Learning [60.90967240168525]
ディープニューラルネットワーク(DNN)は、大規模な注釈付きデータセットの助けを借りて、多くのタスクで大きな成功を収めている。
しかし、大規模なデータのラベル付けは非常にコストがかかりエラーが発生しやすいため、アノテーションの品質を保証することは困難である。
本稿では,従来のラベルと予測を併用したTCR(Temporal Calibrated Regularization)を提案する。
論文 参考訳(メタデータ) (2020-07-01T04:48:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。