論文の概要: Tempo estimation as fully self-supervised binary classification
- arxiv url: http://arxiv.org/abs/2401.08891v1
- Date: Wed, 17 Jan 2024 00:15:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 17:24:13.355900
- Title: Tempo estimation as fully self-supervised binary classification
- Title(参考訳): 完全自己教師付きバイナリ分類としてのテンポ推定
- Authors: Florian Henkel, Jaehun Kim, Matthew C. McCallum, Samuel E. Sandberg,
Matthew E. P. Davies
- Abstract要約: ラベル付きデータに依存しない完全自己教師型アプローチを提案する。
提案手法は,テンポに関する情報を含む様々な特性を,すでに汎用的な(音楽的な)オーディオ埋め込みがエンコードしているという事実に基づいている。
- 参考スコア(独自算出の注目度): 6.255143207183722
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the problem of global tempo estimation in musical audio.
Given that annotating tempo is time-consuming and requires certain musical
expertise, few publicly available data sources exist to train machine learning
models for this task. Towards alleviating this issue, we propose a fully
self-supervised approach that does not rely on any human labeled data. Our
method builds on the fact that generic (music) audio embeddings already encode
a variety of properties, including information about tempo, making them easily
adaptable for downstream tasks. While recent work in self-supervised tempo
estimation aimed to learn a tempo specific representation that was subsequently
used to train a supervised classifier, we reformulate the task into the binary
classification problem of predicting whether a target track has the same or a
different tempo compared to a reference. While the former still requires
labeled training data for the final classification model, our approach uses
arbitrary unlabeled music data in combination with time-stretching for model
training as well as a small set of synthetically created reference samples for
predicting the final tempo. Evaluation of our approach in comparison with the
state-of-the-art reveals highly competitive performance when the constraint of
finding the precise tempo octave is relaxed.
- Abstract(参考訳): 本稿では,グローバルなテンポ推定の問題に対処する。
テンポの注釈は時間を要するため、特定の音楽的専門知識を必要とするため、このタスクのために機械学習モデルをトレーニングするための公開データソースはほとんど存在しない。
この問題を軽減するために,人間ラベルデータに依存しない完全自己監督型アプローチを提案する。
提案手法は,総称的(音楽)オーディオ組込みが,テンポに関する情報を含む様々なプロパティを既にエンコードしており,下流タスクに容易に適応できるという事実に基づいている。
教師付き分類器の訓練に使用されたテンポ固有表現の学習を目的とした,近年の自己教師型テンポ推定における研究は,対象トラックが参照と異なるテンポを持つか否かを予測する二分分類問題に再編成されている。
前者は最終分類モデルにラベル付きトレーニングデータを必要とするが,モデルトレーニングには任意のラベル付き音楽データと,モデルトレーニングのための時間拡張と,最終テンポを予測するための合成された参照サンプルの組み合わせを用いる。
提案手法を最先端技術と比較すると, 正確なテンポオクターブを求める制約が緩和された場合に高い競争性能を示す。
関連論文リスト
- Stem-JEPA: A Joint-Embedding Predictive Architecture for Musical Stem Compatibility Estimation [3.8570045844185237]
マルチトラックデータセットでトレーニングした新しいJEPA(Joint-Embedding Predictive Architecture)であるStem-JEPAを紹介する。
本モデルでは, エンコーダと予測器の2つのネットワークから構成される。
MUSDB18データセットの検索タスクにおいて、本モデルの性能を評価し、ミキシングから欠落した茎を見つける能力を検証した。
論文 参考訳(メタデータ) (2024-08-05T14:34:40Z) - One-bit Supervision for Image Classification: Problem, Solution, and
Beyond [114.95815360508395]
本稿では,ラベルの少ない新しい学習環境である,画像分類のための1ビット監督について述べる。
多段階学習パラダイムを提案し、負ラベル抑圧を半教師付き半教師付き学習アルゴリズムに組み込む。
複数のベンチマークにおいて、提案手法の学習効率は、フルビットの半教師付き監視手法よりも優れている。
論文 参考訳(メタデータ) (2023-11-26T07:39:00Z) - Tempo vs. Pitch: understanding self-supervised tempo estimation [0.783970968131292]
自己超越法は、人間が生成したラベルを必要としないプレテキストタスクを解くことで表現を学習する。
自己教師型テンポ推定における入力表現とデータ分布の関係について検討する。
論文 参考訳(メタデータ) (2023-04-14T00:08:08Z) - Informative regularization for a multi-layer perceptron RR Lyrae
classifier under data shift [3.303002683812084]
本稿では,情報正規化とアドホックなトレーニング手法に基づくスケーラブルで容易に適応可能なアプローチを提案し,シフト問題を緩和する。
提案手法は,特徴量からの知識をニューラルネットワークに組み込むことで,基礎となるデータシフト問題を管理する。
論文 参考訳(メタデータ) (2023-03-12T02:49:19Z) - Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language
Models [107.05966685291067]
テスト時間プロンプトチューニング (TPT) を提案し, 適応的なプロンプトを1つのテストサンプルで学習する。
TPTはCLIPのゼロショットトップ1の精度を平均3.6%改善する。
クロスデータセットの一般化を目に見えないカテゴリで評価する際、PTは追加のトレーニングデータを使用する最先端のアプローチと同等に機能する。
論文 参考訳(メタデータ) (2022-09-15T17:55:11Z) - Building for Tomorrow: Assessing the Temporal Persistence of Text
Classifiers [18.367109894193486]
テキスト分類モデルの性能は、分類すべき新しいデータがトレーニングに使用されるデータからより遠い時間に低下する可能性がある。
これにより、時間とともに持続することを目的としたテキスト分類モデルの設計に関する重要な研究上の疑問が提起される。
6~19年間にわたる3つのデータセットの縦断分類実験を行った。
論文 参考訳(メタデータ) (2022-05-11T12:21:14Z) - Learning with Neighbor Consistency for Noisy Labels [69.83857578836769]
特徴空間におけるトレーニング例間の類似性を利用した雑音ラベルから学習する手法を提案する。
合成(CIFAR-10, CIFAR-100)とリアル(mini-WebVision, Clothing1M, mini-ImageNet-Red)の両方のノイズを評価するデータセットの評価を行った。
論文 参考訳(メタデータ) (2022-02-04T15:46:27Z) - Self-supervised Pretraining with Classification Labels for Temporal
Activity Detection [54.366236719520565]
時間的アクティビティ検出は、1フレーム当たりのアクティビティクラスを予測することを目的としている。
検出に必要なフレームレベルのアノテーションが高価なため、検出データセットの規模は限られている。
本研究では,分類ラベルを利用した自己教師付き事前学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-26T18:59:28Z) - Semi-supervised Facial Action Unit Intensity Estimation with Contrastive
Learning [54.90704746573636]
提案手法では,手動でキーフレームを選択する必要はなく,2%の注釈付きフレームで最先端の結果を生成できる。
提案手法は, ランダムに選択したデータに対してわずか2%の費用で作業した場合に, 既存の手法よりも優れていることを実験的に検証した。
論文 参考訳(メタデータ) (2020-11-03T17:35:57Z) - Counting Out Time: Class Agnostic Video Repetition Counting in the Wild [82.26003709476848]
本稿では,アクションがビデオで繰り返される期間を推定するためのアプローチを提案する。
アプローチの要点は、周期予測モジュールを時間的自己相似性を使用するように制約することにある。
我々は、大規模なラベルなしビデオコレクションから生成される合成データセットを用いて、Repnetと呼ばれるこのモデルをトレーニングする。
論文 参考訳(メタデータ) (2020-06-27T18:00:42Z) - Conditional Mutual information-based Contrastive Loss for Financial Time
Series Forecasting [12.0855096102517]
金融時系列予測のための表現学習フレームワークを提案する。
本稿では、まず時系列データからコンパクトな表現を学習し、次に学習した表現を用いて、時系列の動きを予測するためのより単純なモデルを訓練する。
論文 参考訳(メタデータ) (2020-02-18T15:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。