論文の概要: High Resolution Guitar Transcription via Domain Adaptation
- arxiv url: http://arxiv.org/abs/2402.15258v1
- Date: Fri, 23 Feb 2024 10:56:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 14:50:42.359365
- Title: High Resolution Guitar Transcription via Domain Adaptation
- Title(参考訳): ドメイン適応による高分解能ギター転写
- Authors: Xavier Riley, Drew Edwards, Simon Dixon
- Abstract要約: そこで本研究では,高分解能ピアノ転写モデルを用いて新しいギター転写モデルを訓練する。
得られたモデルは、ゼロショットコンテキストでGuitarSetの最先端の転写結果を取得する。
- 参考スコア(独自算出の注目度): 6.8277374293345785
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic music transcription (AMT) has achieved high accuracy for piano due
to the availability of large, high-quality datasets such as MAESTRO and MAPS,
but comparable datasets are not yet available for other instruments. In recent
work, however, it has been demonstrated that aligning scores to transcription
model activations can produce high quality AMT training data for instruments
other than piano. Focusing on the guitar, we refine this approach to training
on score data using a dataset of commercially available score-audio pairs. We
propose the use of a high-resolution piano transcription model to train a new
guitar transcription model. The resulting model obtains state-of-the-art
transcription results on GuitarSet in a zero-shot context, improving on
previously published methods.
- Abstract(参考訳): 自動音楽転写(AMT)はMAESTROやMAPSのような大規模で高品質なデータセットが利用できるため、ピアノの精度が高いが、他の楽器では同等のデータセットが利用できない。
しかし、近年の研究では、楽譜と転写モデルのアクティベーションの整合が、ピアノ以外の楽器の高品質なAMTトレーニングデータを生み出すことが示されている。
ギターに焦点をあてて,市販のスコア-オーディオペアのデータセットを用いて,スコアデータのトレーニングに関するこのアプローチを洗練する。
そこで本研究では,高分解能ピアノ転写モデルを用いて新しいギター転写モデルを訓練する。
得られたモデルは、ゼロショットコンテキストでギターセットの最先端の書き起こし結果を取得し、以前公開された方法を改善した。
関連論文リスト
- YourMT3+: Multi-instrument Music Transcription with Enhanced Transformer Architectures and Cross-dataset Stem Augmentation [15.9795868183084]
マルチストラクチャメント音楽の書き起こしは、ポリフォニック音楽の録音を各楽器に割り当てられた楽譜に変換することを目的としている。
本稿では、マルチストラクチャメント音楽の書き起こし強化のためのモデルの組であるYourMT3+を紹介する。
実験では,音声分離前処理装置の不要さを排除し,直接音声書き起こし機能を示す。
論文 参考訳(メタデータ) (2024-07-05T19:18:33Z) - A Data-Driven Analysis of Robust Automatic Piano Transcription [16.686703489636734]
近年の進歩は、より正確なシステムを生み出すために、新しいニューラルネットワークアーキテクチャを適用することに焦点を当てている。
トレーニングデータの音響特性に対して,これらのモデルが非常に過度に適合することを示す。
トレーニングデータを見ることなく,MAPSデータセット上で88.4F1スコアの最先端のノートオンセット精度を実現する。
論文 参考訳(メタデータ) (2024-02-02T14:11:23Z) - Timbre-Trap: A Low-Resource Framework for Instrument-Agnostic Music
Transcription [19.228155694144995]
Timbre-Trapは、音楽の書き起こしと音声の再構成を統合する新しいフレームワークである。
我々は1つのオートエンコーダを訓練し、ピッチサリエンスを同時に推定し、複雑なスペクトル係数を再構成する。
このフレームワークは、最先端の楽器に依存しない書き起こし手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2023-09-27T15:19:05Z) - Deepfake audio as a data augmentation technique for training automatic
speech to text transcription models [55.2480439325792]
本稿では,ディープフェイク音声に基づくデータ拡張手法を提案する。
インド人(英語)が生成したデータセットが選択され、単一のアクセントの存在が保証された。
論文 参考訳(メタデータ) (2023-09-22T11:33:03Z) - Transfer of knowledge among instruments in automatic music transcription [2.0305676256390934]
この研究は、ソフトウェアシンセサイザーが生成した合成音声データを使って、普遍的なモデルを訓練する方法を示す。
これは、他の楽器の転写モデルに迅速に適応するために、さらなる転写学習を行うための良い基盤である。
論文 参考訳(メタデータ) (2023-04-30T08:37:41Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z) - Decision Forest Based EMG Signal Classification with Low Volume Dataset
Augmented with Random Variance Gaussian Noise [51.76329821186873]
我々は6種類の手振りを限定的なサンプル数で分類できるモデルを作成し、より広い聴衆によく一般化する。
信号のランダムなバウンドの使用など、より基本的な手法のセットにアピールするが、これらの手法がオンライン環境で持てる力を示したいと考えている。
論文 参考訳(メタデータ) (2022-06-29T23:22:18Z) - Unaligned Supervision For Automatic Music Transcription in The Wild [1.2183405753834562]
NoteEMは、トランクレーバーを同時に訓練し、スコアを対応するパフォーマンスに合わせる方法である。
我々は、MAPSデータセットのSOTAノートレベル精度と、データセット間の評価において好適なマージンを報告した。
論文 参考訳(メタデータ) (2022-04-28T17:31:43Z) - Meta Back-translation [111.87397401837286]
プリトレーニングされたバック翻訳モデルから擬似並列データを生成する新しい手法を提案する。
本手法は,生成する擬似並列データに対して,検証セット上で良好な処理を行うためのフォワードトランスレーションモデルを訓練するように,事前訓練されたバックトランスレーションモデルを適用するメタラーニングアルゴリズムである。
論文 参考訳(メタデータ) (2021-02-15T20:58:32Z) - Relative Positional Encoding for Speech Recognition and Direct
Translation [72.64499573561922]
相対位置符号化方式を音声変換器に適用する。
その結果,ネットワークは音声データに存在する変動分布に適応できることがわかった。
論文 参考訳(メタデータ) (2020-05-20T09:53:06Z) - Document Ranking with a Pretrained Sequence-to-Sequence Model [56.44269917346376]
関連ラベルを「ターゲット語」として生成するためにシーケンス・ツー・シーケンス・モデルをどのように訓練するかを示す。
提案手法は,データポーラ方式におけるエンコーダのみのモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2020-03-14T22:29:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。