論文の概要: Deep-Learning Architectures for Multi-Pitch Estimation: Towards Reliable
Evaluation
- arxiv url: http://arxiv.org/abs/2202.09198v1
- Date: Fri, 18 Feb 2022 13:52:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-21 14:52:59.985204
- Title: Deep-Learning Architectures for Multi-Pitch Estimation: Towards Reliable
Evaluation
- Title(参考訳): マルチピッチ推定のためのディープラーニングアーキテクチャ:信頼性評価に向けて
- Authors: Christof Wei{\ss}, Geoffroy Peeters
- Abstract要約: マルチピッチ推定は、ポリフォニック録音におけるピッチの同時動作を検出することを目的としている。
本稿では,CNN,U-net構造,自己意図的コンポーネントに基づくアーキテクチャを実現する。
MusicNetとSchubert Winterreiseのデータセットを用いたマルチピッチ推定のために,これらのアーキテクチャのバリエーションを比較した。
- 参考スコア(独自算出の注目度): 7.599399338954308
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Extracting pitch information from music recordings is a challenging but
important problem in music signal processing. Frame-wise transcription or
multi-pitch estimation aims for detecting the simultaneous activity of pitches
in polyphonic music recordings and has recently seen major improvements thanks
to deep-learning techniques, with a variety of proposed network architectures.
In this paper, we realize different architectures based on CNNs, the U-net
structure, and self-attention components. We propose several modifications to
these architectures including self-attention modules for skip connections,
recurrent layers to replace the self-attention, and a multi-task strategy with
simultaneous prediction of the degree of polyphony. We compare variants of
these architectures in different sizes for multi-pitch estimation, focusing on
Western classical music beyond the piano-solo scenario using the MusicNet and
Schubert Winterreise datasets. Our experiments indicate that most architectures
yield competitive results and that larger model variants seem to be beneficial.
However, we find that these results substantially depend on randomization
effects and the particular choice of the training-test split, which questions
the claim of superiority for particular architectures given only small
improvements. We therefore investigate the influence of dataset splits in the
presence of several movements of a work cycle (cross-version evaluation) and
propose a best-practice splitting strategy for MusicNet, which weakens the
influence of individual test tracks and suppresses overfitting to specific
works and recording conditions. A final evaluation on a mixed dataset suggests
that improvements on one specific dataset do not necessarily generalize to
other scenarios, thus emphasizing the need for further high-quality multi-pitch
datasets in order to reliably measure progress in music transcription tasks.
- Abstract(参考訳): 音楽録音からピッチ情報を抽出することは、音楽信号処理において難しいが重要な問題である。
フレームワイド書き起こしやマルチピッチ推定は,ポリフォニック録音におけるピッチの同時動作を検出することを目的としており,近年,様々なネットワークアーキテクチャを用いたディープラーニング技術により,大きな改善がなされている。
本稿では,cnn,u-net構造,自己着脱成分に基づいて異なるアーキテクチャを実現する。
本稿では,スキップ接続のためのセルフアテンションモジュール,自己アテンションを置換するリカレント層,ポリフォニーの程度を同時予測するマルチタスク戦略など,これらのアーキテクチャの修正を提案する。
マルチピッチ推定のためにこれらのアーキテクチャのバリエーションを比較し,MusicNet と Schubert Winterreise のデータセットを用いたピアノソロシナリオ以外の西洋古典音楽に焦点を当てた。
我々の実験は、ほとんどのアーキテクチャが競争力のある結果をもたらし、より大きなモデル変種が有益であることを示している。
しかし、これらの結果はランダム化効果とトレーニング-テスト分割の特定の選択に大きく依存しており、小さな改善しか与えられていない特定のアーキテクチャの優位性の主張に疑問を呈している。
そこで本研究では,ワークサイクルの複数の動作の有無におけるデータセット分割の影響を調査し(クロスバージョン評価),個々のテストトラックの影響を弱め,特定の作品や記録条件への過剰フィットを抑制するmusicnetのベストプラクティス分割戦略を提案する。
混合データセットの最終的な評価は、ある特定のデータセットの改善が必ずしも他のシナリオに一般化するとは限らないことを示唆しており、音楽の書き起こしタスクの進捗を確実に測定するために、さらに高品質なマルチピッチデータセットの必要性を強調している。
関連論文リスト
- Music Genre Classification: A Comparative Analysis of CNN and XGBoost
Approaches with Mel-frequency cepstral coefficients and Mel Spectrograms [0.0]
提案した畳み込みニューラルネットワーク(CNN)、完全連結層(FC)を持つVGG16、異なる特徴に対するeXtreme Gradient Boosting(XGBoost)アプローチの3つのモデルの性能について検討した。
さらに,データ前処理フェーズにデータセグメンテーションを適用することで,CNNの性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2024-01-09T01:50:31Z) - Timbre-Trap: A Low-Resource Framework for Instrument-Agnostic Music
Transcription [19.228155694144995]
Timbre-Trapは、音楽の書き起こしと音声の再構成を統合する新しいフレームワークである。
我々は1つのオートエンコーダを訓練し、ピッチサリエンスを同時に推定し、複雑なスペクトル係数を再構成する。
このフレームワークは、最先端の楽器に依存しない書き起こし手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2023-09-27T15:19:05Z) - Self-Supervised Contrastive Learning for Robust Audio-Sheet Music
Retrieval Systems [3.997809845676912]
自己指導型コントラスト学習は、実際の音楽コンテンツからの注釈付きデータの不足を軽減することができることを示す。
クロスモーダルなピース識別の高レベルなタスクにスニペットを埋め込む。
本研究では,実際の音楽データが存在する場合,検索品質が30%から100%に向上することが観察された。
論文 参考訳(メタデータ) (2023-09-21T14:54:48Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z) - Structure-Aware Audio-to-Score Alignment using Progressively Dilated
Convolutional Neural Networks [8.669338893753885]
音楽演奏と楽譜の間の構造的差異の同定は、音声とスコアのアライメントにおいて難しいが不可欠なステップである。
本稿では、進化的に拡張された畳み込みニューラルネットワークを用いて、そのような違いを検出する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-01-31T05:14:58Z) - Sequence Generation using Deep Recurrent Networks and Embeddings: A
study case in music [69.2737664640826]
本稿では,異なる種類の記憶機構(メモリセル)について評価し,音楽合成分野におけるその性能について検討する。
提案したアーキテクチャの性能を自動評価するために,定量的な測定値のセットが提示される。
論文 参考訳(メタデータ) (2020-12-02T14:19:19Z) - Score-informed Networks for Music Performance Assessment [64.12728872707446]
MPAモデルにスコア情報を組み込んだディープニューラルネットワークに基づく手法はまだ研究されていない。
スコアインフォームド性能評価が可能な3つのモデルを提案する。
論文 参考訳(メタデータ) (2020-08-01T07:46:24Z) - dMelodies: A Music Dataset for Disentanglement Learning [70.90415511736089]
我々は、研究者が様々な領域でアルゴリズムの有効性を実証するのに役立つ新しいシンボリック・ミュージック・データセットを提案する。
これはまた、音楽用に特別に設計されたアルゴリズムを評価する手段を提供する。
データセットは、遠絡学習のためのディープネットワークのトレーニングとテストに十分な大きさ(約13万データポイント)である。
論文 参考訳(メタデータ) (2020-07-29T19:20:07Z) - Multi-scale Interactive Network for Salient Object Detection [91.43066633305662]
本稿では,隣接レベルからの機能を統合するためのアグリゲート・インタラクション・モジュールを提案する。
より効率的なマルチスケール機能を得るために、各デコーダユニットに自己相互作用モジュールを埋め込む。
5つのベンチマークデータセットによる実験結果から,提案手法は後処理を一切行わず,23の最先端手法に対して良好に動作することが示された。
論文 参考訳(メタデータ) (2020-07-17T15:41:37Z) - Neural Ensemble Search for Uncertainty Estimation and Dataset Shift [67.57720300323928]
ニューラルネットワークのアンサンブルは、データセットシフトに対する精度、不確実性キャリブレーション、堅牢性の観点から、スタンドアロンネットワークよりも優れたパフォーマンスを実現する。
本稿では,アンサンブルをアンサンブルで自動構築する2つの手法を提案する。
得られたアンサンブルは、精度だけでなく、不確実なキャリブレーションやデータセットシフトに対する堅牢性の観点からも、深いアンサンブルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-06-15T17:38:15Z) - Modeling Musical Structure with Artificial Neural Networks [0.0]
音楽構造モデリングのさまざまな側面に対する人工知能の適用について検討する。
Gated Autoencoder(GAE)というコネクショナリストモデルを用いて,楽曲の断片間の変換を学習する方法を示す。
本稿では,ポリフォニック・ミュージックを区間の連続として表現するGAEの特別な予測訓練を提案する。
論文 参考訳(メタデータ) (2020-01-06T18:35:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。