論文の概要: ReconVAT: A Semi-Supervised Automatic Music Transcription Framework for
Low-Resource Real-World Data
- arxiv url: http://arxiv.org/abs/2107.04954v1
- Date: Sun, 11 Jul 2021 03:25:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-14 05:16:02.681181
- Title: ReconVAT: A Semi-Supervised Automatic Music Transcription Framework for
Low-Resource Real-World Data
- Title(参考訳): ReconVAT:低リソース実世界のデータのための半スーパービジョン自動音楽書き起こしフレームワーク
- Authors: Kin Wai Cheuk, Dorien Herremans, Li Su
- Abstract要約: 本稿では,膨大な量の未収録楽曲を活用すべく,半教師付きフレームワークReconVATを提案する。
ReconVATはMAPSやMusicNetといった一般的なベンチマークデータセットで競合する結果を得る。
提案するフレームワークは,実世界のアプリケーションで有用な新しいデータに対する連続学習の可能性を示す。
- 参考スコア(独自算出の注目度): 8.633673212059632
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most of the current supervised automatic music transcription (AMT) models
lack the ability to generalize. This means that they have trouble transcribing
real-world music recordings from diverse musical genres that are not presented
in the labelled training data. In this paper, we propose a semi-supervised
framework, ReconVAT, which solves this issue by leveraging the huge amount of
available unlabelled music recordings. The proposed ReconVAT uses
reconstruction loss and virtual adversarial training. When combined with
existing U-net models for AMT, ReconVAT achieves competitive results on common
benchmark datasets such as MAPS and MusicNet. For example, in the few-shot
setting for the string part version of MusicNet, ReconVAT achieves F1-scores of
61.0% and 41.6% for the note-wise and note-with-offset-wise metrics
respectively, which translates into an improvement of 22.2% and 62.5% compared
to the supervised baseline model. Our proposed framework also demonstrates the
potential of continual learning on new data, which could be useful in
real-world applications whereby new data is constantly available.
- Abstract(参考訳): 現在のsupervised automatic music transcription (amt) モデルは、ほとんどが一般化することができない。
これは、ラベル付きトレーニングデータに表示されない様々な音楽ジャンルから実際の音楽録音を翻訳するのに苦労していることを意味する。
本稿では,膨大な量の未収録楽曲を活用できる半教師付きフレームワークReconVATを提案する。
提案手法は再構成損失と仮想敵訓練を用いる。
AMTの既存のU-netモデルと組み合わせると、ReconVATはMAPSやMusicNetといった一般的なベンチマークデータセットで競合する結果が得られる。
例えば、MusicNetの文字列部分バージョンの数ショット設定では、ReconVATはノートワイドとノートウィザードのメトリクスでそれぞれ61.0%と41.6%のF1スコアを達成しており、教師付きベースラインモデルと比較して22.2%と62.5%の改善となっている。
提案するフレームワークでは,新たなデータに対する継続的な学習の可能性も示している。
関連論文リスト
- Timbre-Trap: A Low-Resource Framework for Instrument-Agnostic Music
Transcription [19.228155694144995]
Timbre-Trapは、音符と音符の強い分離性を利用して、音楽の書き起こしと音声の再構成を統一する新しいフレームワークである。
このフレームワークは、最先端の楽器に依存しない書き起こし手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2023-09-27T15:19:05Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [63.145096469085914]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z) - Transfer of knowledge among instruments in automatic music transcription [2.0305676256390934]
この研究は、ソフトウェアシンセサイザーが生成した合成音声データを使って、普遍的なモデルを訓練する方法を示す。
これは、他の楽器の転写モデルに迅速に適応するために、さらなる転写学習を行うための良い基盤である。
論文 参考訳(メタデータ) (2023-04-30T08:37:41Z) - Privacy Adhering Machine Un-learning in NLP [66.17039929803933]
現実の業界では、機械学習を使ってユーザデータに基づくモデルを構築します。
このような委任事項には、データだけでなく、モデルの再トレーニングにも労力が要る。
データの継続的な削除と モデル再訓練のステップはスケールしません
この課題に対処するために、textitMachine Unlearningを提案する。
論文 参考訳(メタデータ) (2022-12-19T16:06:45Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z) - Music Source Separation with Band-split RNN [25.578400006180527]
本稿では,周波数領域モデルを提案する。このモデルでは,混合物のスペクトルをサブバンドに分割し,インターリーブバンドレベルおよびシーケンスレベルのモデリングを行う。
サブバンドの帯域幅の選択は、対象源の特性に関する事前知識または専門知識によって決定できる。
実験の結果、BSRNNはMUSDB18-HQデータセットのみをトレーニングし、ミュージック・デミキシング(MDX)チャレンジ2021において、いくつかの上位モデルを上回った。
論文 参考訳(メタデータ) (2022-09-30T01:49:52Z) - Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language
Models [107.05966685291067]
テスト時間プロンプトチューニング (TPT) を提案し, 適応的なプロンプトを1つのテストサンプルで学習する。
TPTはCLIPのゼロショットトップ1の精度を平均3.6%改善する。
クロスデータセットの一般化を目に見えないカテゴリで評価する際、PTは追加のトレーニングデータを使用する最先端のアプローチと同等に機能する。
論文 参考訳(メタデータ) (2022-09-15T17:55:11Z) - Unaligned Supervision For Automatic Music Transcription in The Wild [1.2183405753834562]
NoteEMは、トランクレーバーを同時に訓練し、スコアを対応するパフォーマンスに合わせる方法である。
我々は、MAPSデータセットのSOTAノートレベル精度と、データセット間の評価において好適なマージンを報告した。
論文 参考訳(メタデータ) (2022-04-28T17:31:43Z) - The USYD-JD Speech Translation System for IWSLT 2021 [85.64797317290349]
本稿では,シドニー大学とJDが共同でIWSLT 2021低リソース音声翻訳タスクを提出したことを述べる。
私たちは、公式に提供されたASRとMTデータセットでモデルをトレーニングしました。
翻訳性能の向上を目的として, バック翻訳, 知識蒸留, 多機能再構成, トランスダクティブファインタニングなど, 最新の効果的な手法について検討した。
論文 参考訳(メタデータ) (2021-07-24T09:53:34Z) - Contrastive Learning of Musical Representations [0.0]
SimCLRを音楽領域に導入し、音楽の生の波形の自己監督学習のためのフレームワークを形成する:CLMR。
CLMRの表現はドメイン外のデータセットで転送可能であることを示し、重要な音楽知識を捉えていることを示す。
音楽における自己教師付き学習の促進と今後の研究のために,本論文のすべての実験の事前学習モデルとソースコードをgithubに公開する。
論文 参考訳(メタデータ) (2021-03-17T02:53:55Z) - A Closer Look at Temporal Sentence Grounding in Videos: Datasets and
Metrics [70.45937234489044]
2つの広く使用されているTSGVデータセット(Charades-STAとActivityNet Captions)を再編成し、トレーニング分割と異なるものにします。
基本的なIoUスコアを校正するために、新しい評価基準「dR@$n$,IoU@$m$」を導入する。
すべての結果は、再編成されたデータセットと新しいメトリクスがTSGVの進捗をよりよく監視できることを示している。
論文 参考訳(メタデータ) (2021-01-22T09:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。