論文の概要: Toward Fully Self-Supervised Multi-Pitch Estimation
- arxiv url: http://arxiv.org/abs/2402.15569v1
- Date: Fri, 23 Feb 2024 19:12:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 17:59:33.283125
- Title: Toward Fully Self-Supervised Multi-Pitch Estimation
- Title(参考訳): 完全自己監督型マルチピッチ推定に向けて
- Authors: Frank Cwitkowitz and Zhiyao Duan
- Abstract要約: マルチピッチ推定のための自己教師型学習目標セットを提案する。
これらの目的は、完全に畳み込みのオートエンコーダを訓練して、直接マルチピッチサリエンスグラムを生成するのに十分である。
完全自己教師付きフレームワークは,ポリフォニック・ミックスを一般化し,従来のマルチピッチ・データセットで訓練された教師付きモデルに匹敵する性能を実現する。
- 参考スコア(独自算出の注目度): 21.000057864087164
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-pitch estimation is a decades-long research problem involving the
detection of pitch activity associated with concurrent musical events within
multi-instrument mixtures. Supervised learning techniques have demonstrated
solid performance on more narrow characterizations of the task, but suffer from
limitations concerning the shortage of large-scale and diverse polyphonic music
datasets with multi-pitch annotations. We present a suite of self-supervised
learning objectives for multi-pitch estimation, which encourage the
concentration of support around harmonics, invariance to timbral
transformations, and equivariance to geometric transformations. These
objectives are sufficient to train an entirely convolutional autoencoder to
produce multi-pitch salience-grams directly, without any fine-tuning. Despite
training exclusively on a collection of synthetic single-note audio samples,
our fully self-supervised framework generalizes to polyphonic music mixtures,
and achieves performance comparable to supervised models trained on
conventional multi-pitch datasets.
- Abstract(参考訳): マルチピッチ推定は,マルチストラクチャミックス内の同時音楽イベントに関連するピッチ活動の検出を含む,数十年にわたる研究課題である。
教師付き学習技術は、タスクのより狭い特徴付けにおいて確固たるパフォーマンスを示しているが、マルチピッチアノテーションを備えた大規模多声楽曲データセットの不足に関する制限に苦しめられている。
本稿では,マルチピッチ推定のための自己教師付き学習目標の組について述べる。これは高調波に対する支持の集中,ティンブラル変換への不変性,幾何変換への同分散を促進する。
これらの目的は、完全な畳み込みオートエンコーダを訓練して、微調整なしで直接マルチピッチサリエンスグラムを生成するのに十分である。
合成シングルノート音声サンプルの収集に特化してトレーニングを行ったが、完全自己教師付きフレームワークはポリフォニックなミックスに一般化し、従来のマルチピッチデータセットでトレーニングされた教師付きモデルに匹敵する性能を実現する。
関連論文リスト
- LC-Protonets: Multi-label Few-shot learning for world music audio tagging [65.72891334156706]
ラベル結合型プロトタイプネットワーク(LC-Protonets)を導入し,複数ラベルの複数ショット分類の問題に対処する。
LC-Protonetsは、限られたトレーニング項目に存在するラベルのパワーセットから、ラベルの組み合わせごとに1つのプロトタイプを生成する。
本手法は,様々な文化をカバーし,現代音楽と伝統音楽の両方を含む,多様な音楽データセットにまたがる自動音声タグ付けに適用する。
論文 参考訳(メタデータ) (2024-09-17T15:13:07Z) - Mitigating Shortcut Learning with Diffusion Counterfactuals and Diverse Ensembles [95.49699178874683]
拡散確率モデル(DPM)を利用したアンサンブル多様化フレームワークDiffDivを提案する。
DPMは、相関した入力特徴を示すサンプルを用いて訓練しても、新しい特徴の組み合わせで画像を生成することができることを示す。
そこで本研究では,DPM誘導の多様化は,教師付き信号の追加を必要とせず,ショートカットキューへの依存を取り除くのに十分であることを示す。
論文 参考訳(メタデータ) (2023-11-23T15:47:33Z) - Compatible Transformer for Irregularly Sampled Multivariate Time Series [75.79309862085303]
本研究では,各サンプルに対して総合的な時間的相互作用特徴学習を実現するためのトランスフォーマーベースのエンコーダを提案する。
実世界の3つのデータセットについて広範な実験を行い、提案したCoFormerが既存の手法を大幅に上回っていることを検証した。
論文 参考訳(メタデータ) (2023-10-17T06:29:09Z) - Co-Learning Meets Stitch-Up for Noisy Multi-label Visual Recognition [70.00984078351927]
本稿では,多ラベル分類と長期学習の特徴に基づく雑音の低減に焦点をあてる。
よりクリーンなサンプルを合成し,マルチラベルノイズを直接低減するStitch-Up拡張を提案する。
ヘテロジニアス・コラーニング・フレームワークは、長い尾の分布とバランスの取れた分布の不整合を活用するためにさらに設計されている。
論文 参考訳(メタデータ) (2023-07-03T09:20:28Z) - Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。
相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。
本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文 参考訳(メタデータ) (2023-06-07T15:44:53Z) - A Unifying Perspective on Multi-Calibration: Game Dynamics for
Multi-Objective Learning [63.20009081099896]
マルチキャリブレーション予測器の設計と解析のための統一フレームワークを提供する。
ゲームダイナミクスとの接続を利用して,多様なマルチ校正学習問題に対する最先端の保証を実現する。
論文 参考訳(メタデータ) (2023-02-21T18:24:17Z) - Self-supervision and Learnable STRFs for Age, Emotion, and Country
Prediction [26.860736835176617]
本研究は,発声音声の年齢,発声国,感情を同時推定するマルチタスク手法を提案する。
本研究では,独立したタスク固有モデルとジョイントモデルによるタスク間の相補性を評価し,異なる特徴集合の相対的強度について検討する。
スペクトル時間受容場に対するスコア融合とHuBERTモデルとの併用によるロバストなデータ前処理は,ExVo-MultiTaskテストスコア0.412を達成できた。
論文 参考訳(メタデータ) (2022-06-25T06:09:10Z) - Deep-Learning Architectures for Multi-Pitch Estimation: Towards Reliable
Evaluation [7.599399338954308]
マルチピッチ推定は、ポリフォニック録音におけるピッチの同時動作を検出することを目的としている。
本稿では,CNN,U-net構造,自己意図的コンポーネントに基づくアーキテクチャを実現する。
MusicNetとSchubert Winterreiseのデータセットを用いたマルチピッチ推定のために,これらのアーキテクチャのバリエーションを比較した。
論文 参考訳(メタデータ) (2022-02-18T13:52:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。