論文の概要: Downbeat Tracking with Tempo-Invariant Convolutional Neural Networks
- arxiv url: http://arxiv.org/abs/2102.02282v1
- Date: Wed, 3 Feb 2021 20:25:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-05 15:59:09.522302
- Title: Downbeat Tracking with Tempo-Invariant Convolutional Neural Networks
- Title(参考訳): テンポ不変畳み込みニューラルネットワークによるダウンビート追跡
- Authors: Bruno Di Giorgi, Matthias Mauch, Mark Levy
- Abstract要約: 畳み込みニューラルネットワーク(CNN)において,この技術を実現するための決定論的時間ワープ演算を提案する。
トレーニングデータセットに存在するテンポでリズムパターンを学習する従来のディープラーニングアプローチとは異なり、我々のモデルで学んだパターンはテンポ不変である。
提案モデルの一般化の利点は、GTZANとBallroomのデータセットで示されているように、実際の音楽に拡張される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The human ability to track musical downbeats is robust to changes in tempo,
and it extends to tempi never previously encountered. We propose a
deterministic time-warping operation that enables this skill in a convolutional
neural network (CNN) by allowing the network to learn rhythmic patterns
independently of tempo. Unlike conventional deep learning approaches, which
learn rhythmic patterns at the tempi present in the training dataset, the
patterns learned in our model are tempo-invariant, leading to better tempo
generalisation and more efficient usage of the network capacity. We test the
generalisation property on a synthetic dataset created by rendering the Groove
MIDI Dataset using FluidSynth, split into a training set containing the
original performances and a test set containing tempo-scaled versions rendered
with different SoundFonts (test-time augmentation). The proposed model
generalises nearly perfectly to unseen tempi (F-measure of 0.89 on both
training and test sets), whereas a comparable conventional CNN achieves similar
accuracy only for the training set (0.89) and drops to 0.54 on the test set.
The generalisation advantage of the proposed model extends to real music, as
shown by results on the GTZAN and Ballroom datasets.
- Abstract(参考訳): 音楽のダウンビートを追跡する人間の能力はテンポの変化に対して頑丈であり、それまで遭遇したことのないテンピにまで拡張される。
本稿では,ネットワークがテンポとは無関係にリズムパターンを学習できるようにすることで,畳み込みニューラルネットワーク(CNN)におけるこのスキルを実現するための決定論的時間ワープ演算を提案する。
トレーニングデータセットに存在するテンポのリズムパターンを学習する従来のディープラーニングアプローチとは異なり、我々のモデルで学んだパターンはテンポ不変であり、テンポの一般化とネットワーク容量の効率的な利用に繋がる。
本研究では,ddiデータセットをfluidsynthを用いてレンダリングして作成した合成データセットの一般化特性を,オリジナルパフォーマンスを含むトレーニングセットと,音素の異なるテンポスケールバージョンを含むテストセットに分割する(テスト時間補完)。
提案されたモデルは、ほぼ完全に見えないテンピ(トレーニングセットとテストセットの両方で0.89のF測定)に一般化されるが、同等の従来のCNNはトレーニングセット(0.89)でのみ同様の精度を達成し、テストセットで0.54に低下する。
提案モデルの一般化の利点は、GTZANとBallroomのデータセットで示されているように、実際の音楽に拡張される。
関連論文リスト
- SONNET: Enhancing Time Delay Estimation by Leveraging Simulated Audio [17.811771707446926]
学習に基づく手法は、合成データにもとづいても、新しい実世界のデータに基づいてGCC-PHATを著しく上回り得ることを示す。
トレーニングされたモデルであるSONNETは、リアルタイムに実行可能で、多くの実データアプリケーションのために、最初から新しいデータに取り組んでいます。
論文 参考訳(メタデータ) (2024-11-20T10:23:21Z) - FocusLearn: Fully-Interpretable, High-Performance Modular Neural Networks for Time Series [0.3277163122167434]
本稿では,構築によって解釈可能な時系列予測のための新しいモジュール型ニューラルネットワークモデルを提案する。
リカレントニューラルネットワークはデータ内の時間的依存関係を学習し、アテンションベースの特徴選択コンポーネントは最も関連性の高い特徴を選択する。
モジュール型のディープネットワークは、選択した機能から独立してトレーニングされ、ユーザーが機能がどのように結果に影響を与えるかを示し、モデルを解釈できる。
論文 参考訳(メタデータ) (2023-11-28T14:51:06Z) - Disentangling Spatial and Temporal Learning for Efficient Image-to-Video
Transfer Learning [59.26623999209235]
ビデオの空間的側面と時間的側面の学習を両立させるDiSTを提案する。
DiSTの非絡み合い学習は、大量の事前学習パラメータのバックプロパゲーションを避けるため、非常に効率的である。
5つのベンチマークの大規模な実験は、DiSTが既存の最先端メソッドよりも優れたパフォーマンスを提供することを示す。
論文 参考訳(メタデータ) (2023-09-14T17:58:33Z) - Time-Parameterized Convolutional Neural Networks for Irregularly Sampled
Time Series [26.77596449192451]
不規則にサンプリングされた時系列は、いくつかのアプリケーション領域でユビキタスであり、スパースであり、完全に観測されていない、非整合的な観察に繋がる。
標準シーケンシャルニューラルネットワーク(RNN)と畳み込みニューラルネットワーク(CNN)は、観測時間間の定期的な間隔を考慮し、不規則な時系列モデリングに重大な課題を提起する。
時間的に不規則なカーネルを用いて畳み込み層をパラメータ化する。
論文 参考訳(メタデータ) (2023-08-06T21:10:30Z) - OpenSTL: A Comprehensive Benchmark of Spatio-Temporal Predictive
Learning [67.07363529640784]
提案するOpenSTLは,一般的なアプローチを再帰的モデルと再帰的モデルに分類する。
我々は, 合成移動物体軌道, 人間の動き, 運転シーン, 交通流, 天気予報など, さまざまな領域にわたるデータセットの標準評価を行う。
リカレントフリーモデルは、リカレントモデルよりも効率と性能のバランスが良いことがわかった。
論文 参考訳(メタデータ) (2023-06-20T03:02:14Z) - How neural networks learn to classify chaotic time series [77.34726150561087]
本研究では,通常の逆カオス時系列を分類するために訓練されたニューラルネットワークの内部動作について検討する。
入力周期性とアクティベーション周期の関係は,LKCNNモデルの性能向上の鍵となる。
論文 参考訳(メタデータ) (2023-06-04T08:53:27Z) - Characterizing and overcoming the greedy nature of learning in
multi-modal deep neural networks [62.48782506095565]
深層ニューラルネットワークにおける学習の欲張った性質から、モデルは一つのモダリティにのみ依存する傾向にあり、他のモダリティには不適合であることを示す。
本稿では,学習中のモーダル間の条件付き学習速度のバランスをとるアルゴリズムを提案し,グリージー学習の問題に対処できることを実証する。
論文 参考訳(メタデータ) (2022-02-10T20:11:21Z) - Neural Waveshaping Synthesis [0.0]
ニューラルオーディオ合成に対する,新しい,軽量で完全な因果的アプローチを提案する。
ニューラルウェーブシェイピングユニット(NEWT)は、波形領域で直接動作する。
入力信号と出力信号の単純なアフィン変換によって複雑な鼓膜進化を生成する。
論文 参考訳(メタデータ) (2021-07-11T13:50:59Z) - Fast accuracy estimation of deep learning based multi-class musical
source separation [79.10962538141445]
本稿では,ニューラルネットワークのトレーニングやチューニングを行うことなく,任意のデータセットにおける楽器の分離性を評価する手法を提案する。
理想的な比マスクを持つオラクルの原理に基づいて、我々の手法は最先端のディープラーニング手法の分離性能を推定するための優れたプロキシである。
論文 参考訳(メタデータ) (2020-10-19T13:05:08Z) - Liquid Time-constant Networks [117.57116214802504]
本稿では,時間連続リカレントニューラルネットワークモデルについて紹介する。
暗黙の非線形性によって学習システムの力学を宣言する代わりに、線形一階力学系のネットワークを構築する。
これらのニューラルネットワークは安定かつ有界な振る舞いを示し、ニューラル常微分方程式の族の中で優れた表現性をもたらす。
論文 参考訳(メタデータ) (2020-06-08T09:53:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。