論文の概要: Transfer of knowledge among instruments in automatic music transcription
- arxiv url: http://arxiv.org/abs/2305.00426v1
- Date: Sun, 30 Apr 2023 08:37:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-02 15:14:19.844870
- Title: Transfer of knowledge among instruments in automatic music transcription
- Title(参考訳): 自動音符転写における楽器間の知識伝達
- Authors: Micha{\l} Le\'s and Micha{\l} Wo\'zniak
- Abstract要約: この研究は、ソフトウェアシンセサイザーが生成した合成音声データを使って、普遍的なモデルを訓練する方法を示す。
これは、他の楽器の転写モデルに迅速に適応するために、さらなる転写学習を行うための良い基盤である。
- 参考スコア(独自算出の注目度): 2.0305676256390934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic music transcription (AMT) is one of the most challenging tasks in
the music information retrieval domain. It is the process of converting an
audio recording of music into a symbolic representation containing information
about the notes, chords, and rhythm. Current research in this domain focuses on
developing new models based on transformer architecture or using methods to
perform semi-supervised training, which gives outstanding results, but the
computational cost of training such models is enormous.
This work shows how to employ easily generated synthesized audio data
produced by software synthesizers to train a universal model. It is a good base
for further transfer learning to quickly adapt transcription model for other
instruments. Achieved results prove that using synthesized data for training
may be a good base for pretraining general-purpose models, where the task of
transcription is not focused on one instrument.
- Abstract(参考訳): 自動音楽書き起こし (AMT) は、音楽情報検索領域において最も困難なタスクの1つである。
音楽の録音を音符、和音、リズムに関する情報を含む象徴的な表現に変換する過程である。
この領域における最近の研究は、トランスフォーマーアーキテクチャに基づく新しいモデルの開発や、半教師付きトレーニングを行う方法の開発に焦点を合わせているが、これらのモデルのトレーニングの計算コストは巨大である。
この研究は、ソフトウェアシンセサイザーが生成した合成音声データを使って、普遍的なモデルを訓練する方法を示す。
他の楽器の転写モデルに迅速に適応するためには、さらなる転写学習の基盤となる。
その結果, 合成データを用いた学習は, 1つの楽器に焦点をあてない汎用モデルの事前学習の基盤となる可能性が示唆された。
関連論文リスト
- Audio-to-Score Conversion Model Based on Whisper methodology [0.0]
この論文は、音楽情報をトークンに変換するカスタム表記システムである"Orpheus' Score"を革新的に導入している。
実験によると、従来のアルゴリズムと比較して、モデルは精度と性能を大幅に改善した。
論文 参考訳(メタデータ) (2024-10-22T17:31:37Z) - YourMT3+: Multi-instrument Music Transcription with Enhanced Transformer Architectures and Cross-dataset Stem Augmentation [15.9795868183084]
マルチストラクチャメント音楽の書き起こしは、ポリフォニック音楽の録音を各楽器に割り当てられた楽譜に変換することを目的としている。
本稿では、マルチストラクチャメント音楽の書き起こし強化のためのモデルの組であるYourMT3+を紹介する。
実験では,音声分離前処理装置の不要さを排除し,直接音声書き起こし機能を示す。
論文 参考訳(メタデータ) (2024-07-05T19:18:33Z) - Annotation-free Automatic Music Transcription with Scalable Synthetic Data and Adversarial Domain Confusion [0.0]
そこで本研究では,MIDI-audio ペアデータの事前学習や対向領域の混乱を伴わない書き起こしモデルを提案する。
実験では、トレーニングデータセットがMIDIアノテーションを含まない実世界のアプリケーションシナリオ下での手法を評価する。
提案手法は,組合わせMIDI-audioの実際のデータセットを利用せずに,確立されたベースライン手法と比較して競争性能が向上した。
論文 参考訳(メタデータ) (2023-12-16T10:07:18Z) - Timbre-Trap: A Low-Resource Framework for Instrument-Agnostic Music
Transcription [19.228155694144995]
Timbre-Trapは、音楽の書き起こしと音声の再構成を統合する新しいフレームワークである。
我々は1つのオートエンコーダを訓練し、ピッチサリエンスを同時に推定し、複雑なスペクトル係数を再構成する。
このフレームワークは、最先端の楽器に依存しない書き起こし手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2023-09-27T15:19:05Z) - Multitrack Music Transcription with a Time-Frequency Perceiver [6.617487928813374]
マルチトラック音楽の書き起こしは、複数の楽器の音符に入力された音声を同時に書き起こすことを目的としている。
本稿では,マルチトラック転写のための音声入力の時間周波数表現をモデル化する,新しいディープニューラルネットワークアーキテクチャPerceiver TFを提案する。
論文 参考訳(メタデータ) (2023-06-19T08:58:26Z) - Melody transcription via generative pre-training [86.08508957229348]
メロディの書き起こしの鍵となる課題は、様々な楽器のアンサンブルや音楽スタイルを含む幅広いオーディオを処理できる方法を構築することである。
この課題に対処するために、広帯域オーディオの生成モデルであるJukebox(Dhariwal et al. 2020)の表現を活用する。
広義音楽のクラウドソースアノテーションから50ドル(約5,400円)のメロディ書き起こしを含む新しいデータセットを導出する。
論文 参考訳(メタデータ) (2022-12-04T18:09:23Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z) - Music Instrument Classification Reprogrammed [79.68916470119743]
プログラム」とは、事前学習されたモデルの入力と出力の両方を修正・マッピングすることで、もともと異なるタスクをターゲットにした、事前学習された深層・複雑なニューラルネットワークを利用する手法である。
本研究では,異なるタスクで学習した表現のパワーを効果的に活用できることを実証し,結果として得られた再プログラムシステムは,訓練パラメータのごく一部で,同等あるいはそれ以上の性能を持つシステムでも実行可能であることを実証する。
論文 参考訳(メタデータ) (2022-11-15T18:26:01Z) - Fast accuracy estimation of deep learning based multi-class musical
source separation [79.10962538141445]
本稿では,ニューラルネットワークのトレーニングやチューニングを行うことなく,任意のデータセットにおける楽器の分離性を評価する手法を提案する。
理想的な比マスクを持つオラクルの原理に基づいて、我々の手法は最先端のディープラーニング手法の分離性能を推定するための優れたプロキシである。
論文 参考訳(メタデータ) (2020-10-19T13:05:08Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z) - VaPar Synth -- A Variational Parametric Model for Audio Synthesis [78.3405844354125]
本稿では,条件付き変分オートエンコーダ(CVAE)を用いた変分パラメトリックシンセサイザVaPar Synthを提案する。
提案するモデルの性能は,ピッチを柔軟に制御した楽器音の再構成と生成によって実証する。
論文 参考訳(メタデータ) (2020-03-30T16:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。