論文の概要: Exploring Procedural Data Generation for Automatic Acoustic Guitar Fingerpicking Transcription
- arxiv url: http://arxiv.org/abs/2508.07987v1
- Date: Mon, 11 Aug 2025 13:52:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.123168
- Title: Exploring Procedural Data Generation for Automatic Acoustic Guitar Fingerpicking Transcription
- Title(参考訳): 自動アコースティックギターフィンガーピッキング転写のための手続きデータ生成の探索
- Authors: Sebastian Murgul, Michael Heizmann,
- Abstract要約: 本研究では、実際の音声記録の代替として、手続き型データ生成パイプラインについて検討する。
提案手法は,知識ベースフィンガーピッキング・タブチュア・コンポジション,MIDIパフォーマンス・レンダリング,物理モデリングの4段階を通じてトレーニングデータを合成する。
我々は、実データと合成データの両方でCRNNベースのノート追跡モデルを訓練し、評価し、手続きデータを用いて適切なノート追跡結果が得られることを示す。
- 参考スコア(独自算出の注目度): 2.8544822698499255
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Automatic transcription of acoustic guitar fingerpicking performances remains a challenging task due to the scarcity of labeled training data and legal constraints connected with musical recordings. This work investigates a procedural data generation pipeline as an alternative to real audio recordings for training transcription models. Our approach synthesizes training data through four stages: knowledge-based fingerpicking tablature composition, MIDI performance rendering, physical modeling using an extended Karplus-Strong algorithm, and audio augmentation including reverb and distortion. We train and evaluate a CRNN-based note-tracking model on both real and synthetic datasets, demonstrating that procedural data can be used to achieve reasonable note-tracking results. Finetuning with a small amount of real data further enhances transcription accuracy, improving over models trained exclusively on real recordings. These results highlight the potential of procedurally generated audio for data-scarce music information retrieval tasks.
- Abstract(参考訳): ラベル付きトレーニングデータの不足や、録音に関連する法的制約のため、アコースティックギターのフィンガーピッキング演奏の自動書き起こしは依然として難しい課題である。
本研究では、実際の音声記録の代替として、手続き型データ生成パイプラインについて検討する。
提案手法は,知識ベースフィンガーピッキング・タブラチュア構成,MIDIパフォーマンスレンダリング,拡張Karplus-Strongアルゴリズムを用いた物理モデリング,残響と歪みを含む音声拡張の4段階を通じてトレーニングデータを合成する。
我々は、実データと合成データの両方でCRNNベースのノート追跡モデルを訓練し、評価し、手続きデータを用いて適切なノート追跡結果が得られることを示す。
少量の実際のデータによるファインタニングにより、転写精度が向上し、実際の録音にのみ訓練されたモデルよりも改善される。
これらの結果は,データスカースな音楽情報検索タスクにおいて,手続き的に生成された音声の可能性を強調した。
関連論文リスト
- Joint Transcription of Acoustic Guitar Strumming Directions and Chords [2.5398014196797614]
我々は,新しいデータセットと深層学習に基づく転写モデルを導入することで,ギターストーミング転写へのマルチモーダルアプローチを拡張した。
ESP32スマートウォッチモーションセンサと構造化記録プロトコルを用いて90分間のギター録音を収集する。
畳み込みイベントを検出し、その方向を分類し、マイクオーディオのみを使用して対応するコードを特定するために、畳み込みリカレントニューラルネットワーク(CRNN)モデルを訓練する。
論文 参考訳(メタデータ) (2025-08-11T13:34:49Z) - Music Boomerang: Reusing Diffusion Models for Data Augmentation and Audio Manipulation [49.062766449989525]
音楽オーディオの生成モデルは、典型的にはテキストプロンプトやメロディのみに基づいて出力を生成するために使用される。
画像領域に対して最近提案されたブーメランサンプリングでは,任意の事前学習拡散モデルを用いて,既存の例に近い出力を生成することができる。
論文 参考訳(メタデータ) (2025-07-07T10:46:07Z) - Naturalistic Music Decoding from EEG Data via Latent Diffusion Models [14.882764251306094]
本研究は,非侵襲的脳波データを用いて,高品質な音楽再生を実現するための最初の試みである。
我々は、パブリックなNMED-Tデータセットでモデルをトレーニングし、ニューラルネットワークベースのメトリクスを提案する定量的評価を行う。
論文 参考訳(メタデータ) (2024-05-15T03:26:01Z) - Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。
RAFは密集した室内音響データを提供する最初のデータセットである。
論文 参考訳(メタデータ) (2024-03-27T17:59:56Z) - RMSSinger: Realistic-Music-Score based Singing Voice Synthesis [56.51475521778443]
RMS-SVSは、異なる音符タイプでリアル音楽のスコアを与えられた高品質な歌声を生成することを目的としている。
RMS-SVS方式であるRMSSingerを提案する。
RMSSingerでは,時間を要する音素の持続時間アノテーションと複雑な音素レベルのメルノートアライメントを避けるために,単語レベルのモデリングを導入する。
論文 参考訳(メタデータ) (2023-05-18T03:57:51Z) - Transfer of knowledge among instruments in automatic music transcription [2.0305676256390934]
この研究は、ソフトウェアシンセサイザーが生成した合成音声データを使って、普遍的なモデルを訓練する方法を示す。
これは、他の楽器の転写モデルに迅速に適応するために、さらなる転写学習を行うための良い基盤である。
論文 参考訳(メタデータ) (2023-04-30T08:37:41Z) - Melody transcription via generative pre-training [86.08508957229348]
メロディの書き起こしの鍵となる課題は、様々な楽器のアンサンブルや音楽スタイルを含む幅広いオーディオを処理できる方法を構築することである。
この課題に対処するために、広帯域オーディオの生成モデルであるJukebox(Dhariwal et al. 2020)の表現を活用する。
広義音楽のクラウドソースアノテーションから50ドル(約5,400円)のメロディ書き起こしを含む新しいデータセットを導出する。
論文 参考訳(メタデータ) (2022-12-04T18:09:23Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z) - Unaligned Supervision For Automatic Music Transcription in The Wild [1.2183405753834562]
NoteEMは、トランクレーバーを同時に訓練し、スコアを対応するパフォーマンスに合わせる方法である。
我々は、MAPSデータセットのSOTAノートレベル精度と、データセット間の評価において好適なマージンを報告した。
論文 参考訳(メタデータ) (2022-04-28T17:31:43Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。