論文の概要: Beat Detection as Object Detection
- arxiv url: http://arxiv.org/abs/2510.14391v1
- Date: Thu, 16 Oct 2025 07:42:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.76467
- Title: Beat Detection as Object Detection
- Title(参考訳): 物体検出としてのビート検出
- Authors: Jaehoon Ahn, Moon-Ryul Jung,
- Abstract要約: 最近のビートとダウンビート追跡モデル(例えば、RNN、TN、Transformers)はフレームレベルのアクティベーションを出力する。
我々は、このタスクをオブジェクト検出として再フレーミングし、ビートとダウンビートを時間的「対象」としてモデル化する。
コンピュータビジョンから1DオーディオへのFCOS検出器の適用により、元のバックボーンをWaveBeatの時間的特徴抽出器に置き換え、マルチスケールの時間的パターンをキャプチャするFeature Pyramid Networkを追加します。
このモデルは、信頼スコアで重なり合うビート/ダウンビート間隔を予測し、続いて非最大抑制(NMS)を行い、最終的な予測を選択する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent beat and downbeat tracking models (e.g., RNNs, TCNs, Transformers) output frame-level activations. We propose reframing this task as object detection, where beats and downbeats are modeled as temporal "objects." Adapting the FCOS detector from computer vision to 1D audio, we replace its original backbone with WaveBeat's temporal feature extractor and add a Feature Pyramid Network to capture multi-scale temporal patterns. The model predicts overlapping beat/downbeat intervals with confidence scores, followed by non-maximum suppression (NMS) to select final predictions. This NMS step serves a similar role to DBNs in traditional trackers, but is simpler and less heuristic. Evaluated on standard music datasets, our approach achieves competitive results, showing that object detection techniques can effectively model musical beats with minimal adaptation.
- Abstract(参考訳): 最近のビートとダウンビート追跡モデル(例えば、RNN、TN、Transformers)は、フレームレベルのアクティベーションを出力する。
本稿では、このタスクをオブジェクト検出として再フレーミングし、ビートとダウンビートを時間的「対象」としてモデル化する。
コンピュータビジョンから1DオーディオへのFCOS検出器の適用により、元のバックボーンをWaveBeatの時間的特徴抽出器に置き換え、マルチスケールの時間的パターンをキャプチャするFeature Pyramid Networkを追加します。
このモデルは、信頼スコアで重なり合うビート/ダウンビート間隔を予測し、続いて非最大抑制(NMS)を行い、最終的な予測を選択する。
このNMSステップは、従来のトラッカーにおけるDBNと同じような役割を果たすが、よりシンプルでヒューリスティックではない。
提案手法は,標準音楽データセットから評価され,オブジェクト検出技術が最小限の適応で効果的に音楽ビートをモデル化できることを示す。
関連論文リスト
- Beat and Downbeat Tracking in Performance MIDI Using an End-to-End Transformer Architecture [2.8544822698499255]
動作MIDIにおけるビート・アンド・ダウンビート追跡のためのエンド・ツー・エンド・エンド・トランスフォーマーモデルを提案する。
提案手法では,動的拡張やトークン化の最適化など,新しいデータ前処理手法を導入している。
我々は,A-MAPS,ASAP,GuitarSet,Leducのデータセットを用いて,最先端の隠れマルコフモデル(HMM)とディープラーニングに基づくビートトラッキング手法との比較を行った。
論文 参考訳(メタデータ) (2025-07-01T06:27:42Z) - Beat this! Accurate beat tracking without DBN postprocessing [4.440100868992127]
本研究では,多種多様な音楽範囲にまたがる一般性と高精度の2つの目標を用いて,ビートとダウンビートを追跡するシステムを提案する。
ソロ楽器録音や時間変化のある曲,テンポ変化の高いクラシック音楽など,複数のデータセットをトレーニングすることで,汎用性を実現する。
高精度にアノテーションの小さな時間シフトに耐性のある損失関数を開発し、周波数や時間とともに変換器と畳み込みを交互に行うアーキテクチャを開発した。
論文 参考訳(メタデータ) (2024-07-31T14:59:17Z) - DORT: Modeling Dynamic Objects in Recurrent for Multi-Camera 3D Object
Detection and Tracking [67.34803048690428]
本稿では、この問題を解決するためにRecurrenT(DORT)の動的オブジェクトをモデル化することを提案する。
DORTは、重い計算負担を軽減する動き推定のために、オブジェクトワイズローカルボリュームを抽出する。
フレキシブルで実用的で、ほとんどのカメラベースの3Dオブジェクト検出器に差し込むことができる。
論文 参考訳(メタデータ) (2023-03-29T12:33:55Z) - Spatio-Temporal Point Process for Multiple Object Tracking [30.041104276095624]
多重オブジェクト追跡(MOT)は、連続するフレーム間の検出対象の関係をモデル化し、それらを異なる軌道にマージすることに焦点を当てている。
本稿では,物体を軌道に関連付ける前に,ノイズを効果的に予測し,マスクアウトし,検出結果を混乱させる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-05T18:14:08Z) - Minkowski Tracker: A Sparse Spatio-Temporal R-CNN for Joint Object
Detection and Tracking [53.64390261936975]
我々はオブジェクトの検出と追跡を共同で解決するスパース時間R-CNNであるMinkowski Trackerを提案する。
領域ベースCNN(R-CNN)に着想を得て,物体検出器R-CNNの第2段階として動きを追跡することを提案する。
大規模実験では,本手法の総合的な性能向上は4つの要因によることがわかった。
論文 参考訳(メタデータ) (2022-08-22T04:47:40Z) - Neural Waveshaping Synthesis [0.0]
ニューラルオーディオ合成に対する,新しい,軽量で完全な因果的アプローチを提案する。
ニューラルウェーブシェイピングユニット(NEWT)は、波形領域で直接動作する。
入力信号と出力信号の単純なアフィン変換によって複雑な鼓膜進化を生成する。
論文 参考訳(メタデータ) (2021-07-11T13:50:59Z) - Object Detection Made Simpler by Eliminating Heuristic NMS [70.93004137521946]
単純なNMSのないエンドツーエンドのオブジェクト検出フレームワークを示す。
検出精度は元の1段検出器と比べて同等か、さらに向上した。
論文 参考訳(メタデータ) (2021-01-28T02:38:29Z) - ArTIST: Autoregressive Trajectory Inpainting and Scoring for Tracking [80.02322563402758]
オンラインマルチオブジェクトトラッキング(MOT)フレームワークの中核的なコンポーネントの1つは、既存のトラックレットと新しい検出を関連付けることである。
そこで我々は,トラックレットが自然運動を表す可能性を直接測定することにより,トラックレットの提案を評価する確率論的自己回帰生成モデルを提案する。
論文 参考訳(メタデータ) (2020-04-16T06:43:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。