論文の概要: A Data-Driven Analysis of Robust Automatic Piano Transcription
- arxiv url: http://arxiv.org/abs/2402.01424v1
- Date: Fri, 2 Feb 2024 14:11:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 15:02:47.694265
- Title: A Data-Driven Analysis of Robust Automatic Piano Transcription
- Title(参考訳): ロバストなピアノ自動転写のデータ駆動解析
- Authors: Drew Edwards, Simon Dixon, Emmanouil Benetos, Akira Maezawa, Yuta
Kusaka
- Abstract要約: 近年の進歩は、より正確なシステムを生み出すために、新しいニューラルネットワークアーキテクチャを適用することに焦点を当てている。
トレーニングデータの音響特性に対して,これらのモデルが非常に過度に適合することを示す。
トレーニングデータを見ることなく,MAPSデータセット上で88.4F1スコアの最先端のノートオンセット精度を実現する。
- 参考スコア(独自算出の注目度): 16.686703489636734
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Algorithms for automatic piano transcription have improved dramatically in
recent years due to new datasets and modeling techniques. Recent developments
have focused primarily on adapting new neural network architectures, such as
the Transformer and Perceiver, in order to yield more accurate systems. In this
work, we study transcription systems from the perspective of their training
data. By measuring their performance on out-of-distribution annotated piano
data, we show how these models can severely overfit to acoustic properties of
the training data. We create a new set of audio for the MAESTRO dataset,
captured automatically in a professional studio recording environment via
Yamaha Disklavier playback. Using various data augmentation techniques when
training with the original and re-performed versions of the MAESTRO dataset, we
achieve state-of-the-art note-onset accuracy of 88.4 F1-score on the MAPS
dataset, without seeing any of its training data. We subsequently analyze these
data augmentation techniques in a series of ablation studies to better
understand their influence on the resulting models.
- Abstract(参考訳): 近年,新たなデータセットやモデリング技術により,自動ピアノ書き起こしアルゴリズムが劇的に向上している。
最近の開発は、より正確なシステムを得るために、TransformerやPerceiverといった新しいニューラルネットワークアーキテクチャの適応に重点を置いている。
本研究では,その学習データの観点から,転写システムについて検討する。
そこで本研究では,これらのモデルがトレーニングデータの音響特性に過度に適合することを示す。
我々はMAESTROデータセットのための新しいオーディオセットを作成し、ヤマハ・ディスクラビエ・プレイングを介してプロのスタジオ録音環境に自動的にキャプチャする。
maestroデータセットのオリジナルおよび再フォーマットされたバージョンでトレーニングを行う際に、様々なデータ拡張技術を用いて、マップデータセット上で88.4 f1-scoreの最先端のノートオンセット精度を達成する。
次に、これらのデータ拡張手法を一連のアブレーション研究で分析し、結果のモデルへの影響をよりよく理解する。
関連論文リスト
- MDM: Advancing Multi-Domain Distribution Matching for Automatic Modulation Recognition Dataset Synthesis [35.07663680944459]
ディープラーニング技術は、AMR(Automatic Modulation Recognition)タスクにうまく導入されている。
ディープラーニングの成功はすべて、大規模なデータセットのトレーニングによるものだ。
大量のデータの問題を解決するため、一部の研究者はデータ蒸留法を提唱した。
論文 参考訳(メタデータ) (2024-08-05T14:16:54Z) - Towards Efficient and Real-Time Piano Transcription Using Neural Autoregressive Models [7.928003786376716]
畳み込みリカレントニューラルネットワークのための新しいアーキテクチャを提案する。
我々は、ピッチワイズLSTMを用いて、音符状態のシーケンスモデリングを改善する。
我々は,提案モデルがMAESTROデータセットの音符精度の観点から,最先端モデルに匹敵することを示す。
論文 参考訳(メタデータ) (2024-04-10T08:06:15Z) - Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。
RAFは密集した室内音響データを提供する最初のデータセットである。
論文 参考訳(メタデータ) (2024-03-27T17:59:56Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Simulation-Enhanced Data Augmentation for Machine Learning Pathloss
Prediction [9.664420734674088]
本稿では,機械学習パスロス予測のための新しいシミュレーション強化データ拡張手法を提案する。
本手法は,細胞被覆シミュレータから生成した合成データと,独立して収集した実世界のデータセットを統合する。
合成データの統合は、異なる環境におけるモデルの一般化可能性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-02-03T00:38:08Z) - TRIAGE: Characterizing and auditing training data for improved
regression [80.11415390605215]
TRIAGEは回帰タスクに適した新しいデータキャラクタリゼーションフレームワークで、広範囲の回帰器と互換性がある。
TRIAGEは、共形予測分布を利用して、モデルに依存しないスコアリング方法、TRIAGEスコアを提供する。
TRIAGEの特徴は一貫性があり、複数の回帰設定においてデータの彫刻/フィルタリングによるパフォーマンス向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-10-29T10:31:59Z) - MADS: Modulated Auto-Decoding SIREN for time series imputation [9.673093148930874]
我々は,暗黙のニューラル表現に基づく時系列計算のための新しい自動デコードフレームワークMADSを提案する。
実世界の2つのデータセット上で本モデルを評価し,時系列計算における最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-07-03T09:08:47Z) - Towards Understanding How Data Augmentation Works with Imbalanced Data [17.478900028887537]
本稿では,データ拡張が3つの異なる分類器,畳み込みニューラルネットワーク,サポートベクトルマシン,ロジスティック回帰モデルに与える影響について検討する。
本研究は,不均衡データに適用した場合,モデル重み,サポートベクトル,特徴選択に大きな変化が生じることを示す。
DAはデータの分散を促進することによって機能し、機械学習モデルがデータの変化とラベルを関連付けることができる、という仮説を立てる。
論文 参考訳(メタデータ) (2023-04-12T15:01:22Z) - Convolutional Neural Networks for the classification of glitches in
gravitational-wave data streams [52.77024349608834]
我々は、高度LIGO検出器のデータから過渡ノイズ信号(グリッチ)と重力波を分類する。
どちらも、Gravity Spyデータセットを使用して、スクラッチからトレーニングされた、教師付き学習アプローチのモデルを使用します。
また、擬似ラベルの自動生成による事前学習モデルの自己教師型アプローチについても検討する。
論文 参考訳(メタデータ) (2023-03-24T11:12:37Z) - Data Scaling Laws in NMT: The Effect of Noise and Architecture [59.767899982937756]
ニューラルネットワーク翻訳(NMT)のデータスケーリング特性に及ぼすアーキテクチャとトレーニングデータ品質の影響について検討する。
データスケーリング指数は最小限の影響を受けており、より多くのデータを追加することで、極端に悪いアーキテクチャやトレーニングデータの補償が可能になることを示唆しています。
論文 参考訳(メタデータ) (2022-02-04T06:53:49Z) - Adaptive Weighting Scheme for Automatic Time-Series Data Augmentation [79.47771259100674]
データ拡張のための2つのサンプル適応自動重み付けスキームを提案する。
提案手法を大規模でノイズの多い財務データセットとUCRアーカイブからの時系列データセット上で検証する。
金融データセットでは、取引戦略と組み合わせた手法が50 $%$以上の年間収益の改善につながることを示し、時系列データでは、データセットの半分以上で最新モデルを上回るパフォーマンスを発揮し、他のものと同様の精度を達成しています。
論文 参考訳(メタデータ) (2021-02-16T17:50:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。