論文の概要: ReconVAT: A Semi-Supervised Automatic Music Transcription Framework for
Low-Resource Real-World Data
- arxiv url: http://arxiv.org/abs/2107.04954v1
- Date: Sun, 11 Jul 2021 03:25:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-14 05:16:02.681181
- Title: ReconVAT: A Semi-Supervised Automatic Music Transcription Framework for
Low-Resource Real-World Data
- Title(参考訳): ReconVAT:低リソース実世界のデータのための半スーパービジョン自動音楽書き起こしフレームワーク
- Authors: Kin Wai Cheuk, Dorien Herremans, Li Su
- Abstract要約: 本稿では,膨大な量の未収録楽曲を活用すべく,半教師付きフレームワークReconVATを提案する。
ReconVATはMAPSやMusicNetといった一般的なベンチマークデータセットで競合する結果を得る。
提案するフレームワークは,実世界のアプリケーションで有用な新しいデータに対する連続学習の可能性を示す。
- 参考スコア(独自算出の注目度): 8.633673212059632
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most of the current supervised automatic music transcription (AMT) models
lack the ability to generalize. This means that they have trouble transcribing
real-world music recordings from diverse musical genres that are not presented
in the labelled training data. In this paper, we propose a semi-supervised
framework, ReconVAT, which solves this issue by leveraging the huge amount of
available unlabelled music recordings. The proposed ReconVAT uses
reconstruction loss and virtual adversarial training. When combined with
existing U-net models for AMT, ReconVAT achieves competitive results on common
benchmark datasets such as MAPS and MusicNet. For example, in the few-shot
setting for the string part version of MusicNet, ReconVAT achieves F1-scores of
61.0% and 41.6% for the note-wise and note-with-offset-wise metrics
respectively, which translates into an improvement of 22.2% and 62.5% compared
to the supervised baseline model. Our proposed framework also demonstrates the
potential of continual learning on new data, which could be useful in
real-world applications whereby new data is constantly available.
- Abstract(参考訳): 現在のsupervised automatic music transcription (amt) モデルは、ほとんどが一般化することができない。
これは、ラベル付きトレーニングデータに表示されない様々な音楽ジャンルから実際の音楽録音を翻訳するのに苦労していることを意味する。
本稿では,膨大な量の未収録楽曲を活用できる半教師付きフレームワークReconVATを提案する。
提案手法は再構成損失と仮想敵訓練を用いる。
AMTの既存のU-netモデルと組み合わせると、ReconVATはMAPSやMusicNetといった一般的なベンチマークデータセットで競合する結果が得られる。
例えば、MusicNetの文字列部分バージョンの数ショット設定では、ReconVATはノートワイドとノートウィザードのメトリクスでそれぞれ61.0%と41.6%のF1スコアを達成しており、教師付きベースラインモデルと比較して22.2%と62.5%の改善となっている。
提案するフレームワークでは,新たなデータに対する継続的な学習の可能性も示している。
関連論文リスト
- Comparative Analysis of Pretrained Audio Representations in Music Recommender Systems [0.0]
音楽情報検索 (MIR) は大量の音楽データに基づいて事前訓練された様々なモデルを提案する。
転送学習は、下流タスクの幅広い範囲で事前訓練されたバックエンドモデルの実証された効果を示す。
Music Recommender Systemsは、事前訓練されたモデルよりも、従来のエンドツーエンドのニューラルネットワーク学習を好む傾向がある。
論文 参考訳(メタデータ) (2024-09-13T17:03:56Z) - Any Image Restoration with Efficient Automatic Degradation Adaptation [132.81912195537433]
本研究は, 各種劣化の相似性を有効かつ包括的修復に活用し, 共同埋設を実現する統一的な方法を提案する。
我々のネットワークは、モデルの複雑さをトレーニング可能なパラメータで約82%、FLOPで約85%削減しつつ、新しいSOTAレコードを設定している。
論文 参考訳(メタデータ) (2024-07-18T10:26:53Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - A Data-Driven Analysis of Robust Automatic Piano Transcription [16.686703489636734]
近年の進歩は、より正確なシステムを生み出すために、新しいニューラルネットワークアーキテクチャを適用することに焦点を当てている。
トレーニングデータの音響特性に対して,これらのモデルが非常に過度に適合することを示す。
トレーニングデータを見ることなく,MAPSデータセット上で88.4F1スコアの最先端のノートオンセット精度を実現する。
論文 参考訳(メタデータ) (2024-02-02T14:11:23Z) - Annotation-free Automatic Music Transcription with Scalable Synthetic Data and Adversarial Domain Confusion [0.0]
そこで本研究では,MIDI-audio ペアデータの事前学習や対向領域の混乱を伴わない書き起こしモデルを提案する。
実験では、トレーニングデータセットがMIDIアノテーションを含まない実世界のアプリケーションシナリオ下での手法を評価する。
提案手法は,組合わせMIDI-audioの実際のデータセットを利用せずに,確立されたベースライン手法と比較して競争性能が向上した。
論文 参考訳(メタデータ) (2023-12-16T10:07:18Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z) - Music Source Separation with Band-split RNN [25.578400006180527]
本稿では,周波数領域モデルを提案する。このモデルでは,混合物のスペクトルをサブバンドに分割し,インターリーブバンドレベルおよびシーケンスレベルのモデリングを行う。
サブバンドの帯域幅の選択は、対象源の特性に関する事前知識または専門知識によって決定できる。
実験の結果、BSRNNはMUSDB18-HQデータセットのみをトレーニングし、ミュージック・デミキシング(MDX)チャレンジ2021において、いくつかの上位モデルを上回った。
論文 参考訳(メタデータ) (2022-09-30T01:49:52Z) - Unaligned Supervision For Automatic Music Transcription in The Wild [1.2183405753834562]
NoteEMは、トランクレーバーを同時に訓練し、スコアを対応するパフォーマンスに合わせる方法である。
我々は、MAPSデータセットのSOTAノートレベル精度と、データセット間の評価において好適なマージンを報告した。
論文 参考訳(メタデータ) (2022-04-28T17:31:43Z) - The USYD-JD Speech Translation System for IWSLT 2021 [85.64797317290349]
本稿では,シドニー大学とJDが共同でIWSLT 2021低リソース音声翻訳タスクを提出したことを述べる。
私たちは、公式に提供されたASRとMTデータセットでモデルをトレーニングしました。
翻訳性能の向上を目的として, バック翻訳, 知識蒸留, 多機能再構成, トランスダクティブファインタニングなど, 最新の効果的な手法について検討した。
論文 参考訳(メタデータ) (2021-07-24T09:53:34Z) - A Closer Look at Temporal Sentence Grounding in Videos: Datasets and
Metrics [70.45937234489044]
2つの広く使用されているTSGVデータセット(Charades-STAとActivityNet Captions)を再編成し、トレーニング分割と異なるものにします。
基本的なIoUスコアを校正するために、新しい評価基準「dR@$n$,IoU@$m$」を導入する。
すべての結果は、再編成されたデータセットと新しいメトリクスがTSGVの進捗をよりよく監視できることを示している。
論文 参考訳(メタデータ) (2021-01-22T09:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。