論文の概要: Self-Supervised Beat Tracking in Musical Signals with Polyphonic
Contrastive Learning
- arxiv url: http://arxiv.org/abs/2201.01771v2
- Date: Sun, 16 Jul 2023 01:12:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-19 00:57:25.849823
- Title: Self-Supervised Beat Tracking in Musical Signals with Polyphonic
Contrastive Learning
- Title(参考訳): ポリフォニックコントラスト学習による音楽信号の自己監督型ビート追跡
- Authors: Dorian Desblancs
- Abstract要約: 我々は、ビートトラッキングとダウンビート推定のための自己教師付き学習テキストタスクを提案する。
音源分離モデルであるSpleeterを使って、曲のドラムを残りの信号から分離する。
これは、オーディオソース分離をセルフスーパービジョンの基本的な構成要素として使う最初の作品の1つである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Annotating musical beats is a very long and tedious process. In order to
combat this problem, we present a new self-supervised learning pretext task for
beat tracking and downbeat estimation. This task makes use of Spleeter, an
audio source separation model, to separate a song's drums from the rest of its
signal. The first set of signals are used as positives, and by extension
negatives, for contrastive learning pre-training. The drum-less signals, on the
other hand, are used as anchors. When pre-training a fully-convolutional and
recurrent model using this pretext task, an onset function is learned. In some
cases, this function is found to be mapped to periodic elements in a song. We
find that pre-trained models outperform randomly initialized models when a beat
tracking training set is extremely small (less than 10 examples). When this is
not the case, pre-training leads to a learning speed-up that causes the model
to overfit to the training set. More generally, this work defines new
perspectives in the realm of musical self-supervised learning. It is notably
one of the first works to use audio source separation as a fundamental
component of self-supervision.
- Abstract(参考訳): 音楽のビートをアノテートするのは非常に長く退屈なプロセスです。
そこで本研究では,ビート追跡とダウンビート推定のための自己教師付き学習プリテキストタスクを提案する。
このタスクでは、オーディオソース分離モデルであるspleeterを使用して、歌のドラムを他の信号から分離する。
最初の信号セットは、対照的な学習事前学習のために、正および拡張負として使用される。
一方、ドラムレス信号はアンカーとして使用される。
このプリテキストタスクを用いて、完全畳み込みおよび繰り返しモデルを事前学習すると、オンセット関数が学習される。
場合によっては、この関数は歌の周期要素にマッピングされる。
その結果、ビートトラッキングトレーニングセットが極めて小さい場合(10例未満)、事前学習モデルはランダムに初期化モデルより優れていることがわかった。
このような場合、事前トレーニングは学習のスピードアップにつながるため、モデルはトレーニングセットに過度に適合する。
より一般に、本書は音楽の自己監督学習の領域における新しい視点を定義する。
これは、オーディオソース分離をセルフスーパービジョンの基本コンポーネントとして使う最初の作品の1つである。
関連論文リスト
- MuseBarControl: Enhancing Fine-Grained Control in Symbolic Music Generation through Pre-Training and Counterfactual Loss [51.85076222868963]
制御信号と対応する音楽トークンを直接リンクする事前学習タスクを導入する。
次に、生成した音楽と制御プロンプトとの整合性を向上する新たな対実的損失を実現する。
論文 参考訳(メタデータ) (2024-07-05T08:08:22Z) - An Experimental Comparison Of Multi-view Self-supervised Methods For Music Tagging [6.363158395541767]
自己教師付き学習は、大量のラベルのないデータに基づいて、一般化可能な機械学習モデルを事前訓練するための強力な方法として登場した。
本研究では,音楽タギングのための新たな自己指導手法の性能について検討し,比較する。
論文 参考訳(メタデータ) (2024-04-14T07:56:08Z) - Refining Pre-Trained Motion Models [56.18044168821188]
我々は、自己教師付きトレーニングによる最先端の教師付きモデルの改善に挑戦する。
実世界の未学習ビデオから「クリーン」な訓練信号を得ることに重点を置いている。
本研究では,本手法が実動画における完全教師付き手法よりも信頼性が高いことを示す。
論文 参考訳(メタデータ) (2024-01-01T18:59:33Z) - Comparision Of Adversarial And Non-Adversarial LSTM Music Generative
Models [2.569647910019739]
この研究は、MIDIデータに基づいて、リカレントニューラルネットワーク音楽作曲家の敵対的および非敵対的な訓練を実装し、比較する。
この評価は, 対人訓練がより審美的に楽しむ音楽を生み出すことを示唆している。
論文 参考訳(メタデータ) (2022-11-01T20:23:49Z) - Spectrograms Are Sequences of Patches [5.253100011321437]
我々は、音楽のスペクトログラムを一連のパッチとしてキャプチャする自己教師型モデルを設計する。
事前学習にはラベル付きデータを使用しず、16k曲のクリップを含むMTATデータセットのサブセットのみを使用します。
本モデルは,他の音響表現モデルと比較して,かなり許容できる結果が得られる。
論文 参考訳(メタデータ) (2022-10-28T08:39:36Z) - Large-Scale Pre-training for Person Re-identification with Noisy Labels [125.49696935852634]
雑音ラベル(PNL)を利用した大規模事前学習フレームワークを開発した。
原則として、これらの3つのモジュールの合同学習は、1つのプロトタイプに類似したクラスタの例だけでなく、プロトタイプの割り当てに基づいてノイズラベルを修正します。
このシンプルな事前学習タスクは、ベルやwhiを使わずに"LUPerson-NL"でSOTA Re-ID表現をスクラッチから学習するスケーラブルな方法を提供する。
論文 参考訳(メタデータ) (2022-03-30T17:59:58Z) - Overcoming Catastrophic Forgetting beyond Continual Learning: Balanced
Training for Neural Machine Translation [15.309573393914462]
ニューラルネットワークは、動的データ分布から複数のタスクを逐次学習する際に、これまで学んだ知識を忘れがちである。
この問題はtextitcatastrophic forgettingと呼ばれ、ニューラルネットワークの継続的な学習における根本的な課題である。
本研究では,特定のデータ注文に基づいて訓練された教師モデルを動的に更新し,学生モデルに補完的知識を反復的に提供するための補完的オンライン知識蒸留(COKD)を提案する。
論文 参考訳(メタデータ) (2022-03-08T08:08:45Z) - Catch-A-Waveform: Learning to Generate Audio from a Single Short Example [33.96833901121411]
任意の領域から1つの短い音声信号で訓練できるGANに基づく生成モデルを提案する。
いずれにせよ,20秒以内のトレーニングオーディオは,我々のモデルが最先端の結果を得るのに十分であることを示す。
論文 参考訳(メタデータ) (2021-06-11T14:35:11Z) - Fast accuracy estimation of deep learning based multi-class musical
source separation [79.10962538141445]
本稿では,ニューラルネットワークのトレーニングやチューニングを行うことなく,任意のデータセットにおける楽器の分離性を評価する手法を提案する。
理想的な比マスクを持つオラクルの原理に基づいて、我々の手法は最先端のディープラーニング手法の分離性能を推定するための優れたプロキシである。
論文 参考訳(メタデータ) (2020-10-19T13:05:08Z) - Dance Revolution: Long-Term Dance Generation with Music via Curriculum
Learning [55.854205371307884]
音楽条件付きダンス生成をシーケンス・ツー・シーケンスの学習問題として定式化する。
本稿では,長動き列生成における自己回帰モデルの誤り蓄積を軽減するための新しいカリキュラム学習戦略を提案する。
提案手法は,自動計測と人的評価において,既存の最先端技術よりも大幅に優れている。
論文 参考訳(メタデータ) (2020-06-11T00:08:25Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。