論文の概要: Joint Transcription of Acoustic Guitar Strumming Directions and Chords
- arxiv url: http://arxiv.org/abs/2508.07973v1
- Date: Mon, 11 Aug 2025 13:34:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.115887
- Title: Joint Transcription of Acoustic Guitar Strumming Directions and Chords
- Title(参考訳): 音響ギターストーミング方向と弦の合同転写
- Authors: Sebastian Murgul, Johannes Schimper, Michael Heizmann,
- Abstract要約: 我々は,新しいデータセットと深層学習に基づく転写モデルを導入することで,ギターストーミング転写へのマルチモーダルアプローチを拡張した。
ESP32スマートウォッチモーションセンサと構造化記録プロトコルを用いて90分間のギター録音を収集する。
畳み込みイベントを検出し、その方向を分類し、マイクオーディオのみを使用して対応するコードを特定するために、畳み込みリカレントニューラルネットワーク(CRNN)モデルを訓練する。
- 参考スコア(独自算出の注目度): 2.5398014196797614
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic transcription of guitar strumming is an underrepresented and challenging task in Music Information Retrieval (MIR), particularly for extracting both strumming directions and chord progressions from audio signals. While existing methods show promise, their effectiveness is often hindered by limited datasets. In this work, we extend a multimodal approach to guitar strumming transcription by introducing a novel dataset and a deep learning-based transcription model. We collect 90 min of real-world guitar recordings using an ESP32 smartwatch motion sensor and a structured recording protocol, complemented by a synthetic dataset of 4h of labeled strumming audio. A Convolutional Recurrent Neural Network (CRNN) model is trained to detect strumming events, classify their direction, and identify the corresponding chords using only microphone audio. Our evaluation demonstrates significant improvements over baseline onset detection algorithms, with a hybrid method combining synthetic and real-world data achieving the highest accuracy for both strumming action detection and chord classification. These results highlight the potential of deep learning for robust guitar strumming transcription and open new avenues for automatic rhythm guitar analysis.
- Abstract(参考訳): ギターストーミングの自動転写は、特にストーミング方向とコード進行を音声信号から抽出するために、音楽情報検索(MIR)において不十分で困難な作業である。
既存のメソッドはpromiseを示すが、その有効性は限られたデータセットによって妨げられることが多い。
本研究では,新しいデータセットと深層学習に基づく書き起こしモデルを導入することで,ギターストーミングの書き起こしに対するマルチモーダルなアプローチを拡張する。
ESP32スマートウォッチモーションセンサと構造化記録プロトコルを用いて90分間のギター録音を収集し、ラベル付きストーミング音声の合成データセットを補完する。
畳み込みイベントを検出し、その方向を分類し、マイクオーディオのみを使用して対応するコードを特定するために、畳み込みリカレントニューラルネットワーク(CRNN)モデルを訓練する。
本評価では, ストーミング動作検出とコード分類の両方において, 合成データと実世界のデータを組み合わせたハイブリッド手法を用いて, ベースラインのオンセット検出アルゴリズムを大幅に改善したことを示す。
これらの結果は,ロバストギターストーミング転写の深層学習の可能性を強調し,リズムギターの自動解析のための新たな道を開いた。
関連論文リスト
- Exploring Procedural Data Generation for Automatic Acoustic Guitar Fingerpicking Transcription [2.8544822698499255]
本研究では、実際の音声記録の代替として、手続き型データ生成パイプラインについて検討する。
提案手法は,知識ベースフィンガーピッキング・タブチュア・コンポジション,MIDIパフォーマンス・レンダリング,物理モデリングの4段階を通じてトレーニングデータを合成する。
我々は、実データと合成データの両方でCRNNベースのノート追跡モデルを訓練し、評価し、手続きデータを用いて適切なノート追跡結果が得られることを示す。
論文 参考訳(メタデータ) (2025-08-11T13:52:17Z) - EditGen: Harnessing Cross-Attention Control for Instruction-Based Auto-Regressive Audio Editing [54.10773655199149]
自動回帰モデルにおける効率的な音声編集のためのクロスアテンション制御の活用について検討する。
画像編集手法に触発されて,横断的・自己認識的メカニズムを通じて編集をガイドするPrompt-to-Promptライクなアプローチを開発した。
論文 参考訳(メタデータ) (2025-07-15T08:44:11Z) - SongGen: A Single Stage Auto-regressive Transformer for Text-to-Song Generation [75.86473375730392]
SongGenは、コントロール可能な曲を生成するための、完全なオープンソースでシングルステージの自動回帰トランスフォーマーである。
音声と伴奏の混合を生成する混合モードと、それらを別々に合成するデュアルトラックモードの2つの出力モードをサポートする。
コミュニティの関与と今後の研究を促進するため、私たちは、モデルの重み付け、トレーニングコード、注釈付きデータ、前処理パイプラインをリリースします。
論文 参考訳(メタデータ) (2025-02-18T18:52:21Z) - TapToTab : Video-Based Guitar Tabs Generation using AI and Audio Analysis [0.0]
本稿では,ディープラーニング,特にリアルタイムフレットボード検出のためのYOLOモデルを活用した高度なアプローチを提案する。
実験の結果,従来の手法に比べて検出精度とロバスト性は著しく向上した。
本稿では,ビデオ録音からギタータブを自動生成することで,ギター指導に革命をもたらすことを目的とする。
論文 参考訳(メタデータ) (2024-09-13T08:17:15Z) - Real-time Percussive Technique Recognition and Embedding Learning for
the Acoustic Guitar [2.5291326778025143]
リアルタイム音楽情報検索(RT-MIR)は,従来の音響機器の能力を高める可能性が大きい。
本研究では,アコースティックギターとギターボディのパーカッションをブレンドしたパーカッシブフィンガースタイルの強化を目的としたRT-MIR技術を開発した。
本稿では,畳み込みニューラルネットワーク(CNN)と変分オートエンコーダ(VAE)に基づくリアルタイムギターボディパーカッション認識と埋め込み学習技術について述べる。
論文 参考訳(メタデータ) (2023-07-13T10:48:29Z) - Transfer of knowledge among instruments in automatic music transcription [2.0305676256390934]
この研究は、ソフトウェアシンセサイザーが生成した合成音声データを使って、普遍的なモデルを訓練する方法を示す。
これは、他の楽器の転写モデルに迅速に適応するために、さらなる転写学習を行うための良い基盤である。
論文 参考訳(メタデータ) (2023-04-30T08:37:41Z) - Melody transcription via generative pre-training [86.08508957229348]
メロディの書き起こしの鍵となる課題は、様々な楽器のアンサンブルや音楽スタイルを含む幅広いオーディオを処理できる方法を構築することである。
この課題に対処するために、広帯域オーディオの生成モデルであるJukebox(Dhariwal et al. 2020)の表現を活用する。
広義音楽のクラウドソースアノテーションから50ドル(約5,400円)のメロディ書き起こしを含む新しいデータセットを導出する。
論文 参考訳(メタデータ) (2022-12-04T18:09:23Z) - Decision Forest Based EMG Signal Classification with Low Volume Dataset
Augmented with Random Variance Gaussian Noise [51.76329821186873]
我々は6種類の手振りを限定的なサンプル数で分類できるモデルを作成し、より広い聴衆によく一般化する。
信号のランダムなバウンドの使用など、より基本的な手法のセットにアピールするが、これらの手法がオンライン環境で持てる力を示したいと考えている。
論文 参考訳(メタデータ) (2022-06-29T23:22:18Z) - Unaligned Supervision For Automatic Music Transcription in The Wild [1.2183405753834562]
NoteEMは、トランクレーバーを同時に訓練し、スコアを対応するパフォーマンスに合わせる方法である。
我々は、MAPSデータセットのSOTAノートレベル精度と、データセット間の評価において好適なマージンを報告した。
論文 参考訳(メタデータ) (2022-04-28T17:31:43Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。