論文の概要: STRUM: A Spectral Transcription and Rhythm Understanding Model for End-to-End Generation of Playable Rhythm-Game Charts
- arxiv url: http://arxiv.org/abs/2605.12135v1
- Date: Tue, 12 May 2026 13:56:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.893062
- Title: STRUM: A Spectral Transcription and Rhythm Understanding Model for End-to-End Generation of Playable Rhythm-Game Charts
- Title(参考訳): STRUM:プレイ可能なリズムゲームチャートのエンドツーエンド生成のためのスペクトル転写とリズム理解モデル
- Authors: Joshua Opria,
- Abstract要約: 我々は、生録音をドラム、ギター、ベース、ボーカル、キーのための再生可能なクローンヒーローチャートに変換する、オーディオからチャートへのパイプラインSTRUMを提示する。
我々は,7つのドラム・ピペリン成分の完全アブレーションとペアリングしたウィルコクソン試験,コミュニティクローン・ヒーロー・チャートにおける地中時間分布の解析,およびドラムのクラスごとの混乱行列について報告する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present STRUM (Spectral Transcription and Rhythm Understanding Model), an audio-to-chart pipeline that converts raw recordings into playable Clone Hero / YARG charts for drums, guitar, bass, vocals, and keys without any oracle metadata. STRUM is a multi-stage hybrid: a two-stage CRNN onset detector and a six-model ensemble classifier for drums; neural onset detectors with monophonic pitch tracking for guitar and bass; word-aligned ASR for vocals; and spectral keyboard detection for keys. We evaluate on a 30-song in-envelope benchmark constructed by screening candidate songs on a single audio-quality criterion -- the median 1-second drum-stem RMS after htdemucs_6s source separation. On this benchmark STRUM achieves drums onset F1 = 0.838, bass F1 = 0.694, guitar F1 = 0.651, and vocals F1 = 0.539 at a +/- 100 ms tolerance with per-song global offset search. We report a complete ablation of seven drum-pipeline components with paired per-song Wilcoxon tests, an analysis of ground-truth-to-audio timing distributions in community Clone Hero charts, and a per-class confusion matrix for the drum classifier. Code, model weights, and the full benchmark manifest are released.
- Abstract(参考訳): 我々は、生録音をドラム、ギター、ベース、ボーカル、キーの再生可能なクローンヒーロー/YARGチャートに変換するオーディオからチャートへのパイプラインであるSTRUM(Spectral Transcription and Rhythm Understanding Model)を提案する。
STRUMは2段階のCRNNオンセット検出器とドラムのための6モデルアンサンブル分類器、ギターとベースのためのモノフォニックピッチトラッキングを備えたニューラル・オンセット検出器、ボーカルのためのワード整列ASR、キーのスペクトルキーボード検出である。
我々は,htdemucs_6sソース分離後の1秒RMSの1つの音質基準で候補曲をスクリーニングし,30曲のイン・エンベロープ・ベンチマークを評価した。
このベンチマークでは、STRUMはドラムのオンセットF1 = 0.838、ベースF1 = 0.694、ギターF1 = 0.651、ボーカルF1 = 0.539をa+//-100msで、グローバルオフセットサーチで達成する。
我々は,7つのドラム・ピペリン成分をペアリングしたウィルコクソン試験,コミュニティクローン・ヒーロー・チャートにおける地中時間分布の解析,およびドラム・クラシファイアのためのクラスごとの混乱行列を用いて完全なアブレーションを報告した。
コード、モデルの重み付け、完全なベンチマークマニフェストがリリースされている。
関連論文リスト
- Towards Realistic Synthetic Data for Automatic Drum Transcription [3.975380931806995]
本稿では,ペアオーディオ-MIDIトレーニングデータの必要性を回避するために,ADT(Automatic Drum Transcription)の新たなパラダイムを提案する。
我々の主な貢献は、ラベルなし音源からの1発ドラムサンプルの多種多様なコーパスを自動的にキュレートする半教師付き手法である。
次に、このコーパスを用いて、MIDIファイルのみから高品質なデータセットを合成し、シーケンス対シーケンスの転写モデルをトレーニングする。
論文 参考訳(メタデータ) (2026-01-14T14:39:05Z) - Barwise Section Boundary Detection in Symbolic Music Using Convolutional Neural Networks [0.0]
セクション境界検出のための人手によるMIDIデータセットを提案する。
第2に、固定長の音楽窓におけるセクション境界の存在を分類するために、深層学習モデルを訓練する。
本モデルではF1スコアの0.77を達成し,類似した音声に基づく教師あり学習手法を改良した。
論文 参考訳(メタデータ) (2025-09-20T07:52:08Z) - Toward Deep Drum Source Separation [52.01259769265708]
本稿では,独立した単一構造ドラムステムの大規模オーディオデータセットであるStemGMDを紹介する。
合計1224時間、StemGMDはドラムのオーディオデータセットとしてこれまでで最大である。
我々は、StemGMDを利用して、新しいディープドラムソース分離モデルであるLarsNetを開発した。
論文 参考訳(メタデータ) (2023-12-15T10:23:07Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - Benchmarks and leaderboards for sound demixing tasks [44.99833362998488]
音源分離タスクのための2つの新しいベンチマークを導入する。
これらのベンチマークでは、音のデミックスやアンサンブルなどの人気モデルを比較します。
また,特定の茎に最適な異なるモデルのアンサンブルに基づく,音声分離のための新しいアプローチも開発している。
論文 参考訳(メタデータ) (2023-05-12T14:00:26Z) - GTR-CTRL: Instrument and Genre Conditioning for Guitar-Focused Music
Generation with Transformers [14.025337055088102]
ギタータブ音楽生成にはDadaGPデータセット,GuitarProでは26万曲以上のコーパス,トークンフォーマットなどを用いています。
所望の楽器やジャンルに基づいてギタータブを生成するために,Transformer-XLディープラーニングモデルを条件付ける手法を提案する。
その結果、GTR-CTRL法は、無条件モデルよりもギター中心のシンボリック・ミュージック・ジェネレーションの柔軟性と制御性が高いことが示唆された。
論文 参考訳(メタデータ) (2023-02-10T17:43:03Z) - Multi-instrument Music Synthesis with Spectrogram Diffusion [19.81982315173444]
我々は、MIDIシーケンスから任意の組み合わせの楽器をリアルタイムで生成できるニューラルシンセサイザーの中盤に焦点を当てる。
MIDIはエンコーダ・デコーダ変換器でスペクトログラム、次いでGAN(Generative Adversarial Network)スペクトルインバータでスペクトログラムからオーディオへ分光する。
これは、楽器と音符の任意の組み合わせのための対話的で表現力のあるニューラルシンセシスに向けた、有望な第一歩である。
論文 参考訳(メタデータ) (2022-06-11T03:26:15Z) - Conditional Drums Generation using Compound Word Representations [4.435094091999926]
複合語表現にインスパイアされた新しいデータ符号化方式を用いて、条件付きドラム生成の課題に取り組む。
本稿では,双方向長短期メモリ(BiLSTM)が条件パラメータに関する情報を受信するシーケンス・ツー・シーケンスアーキテクチャを提案する。
比較的グローバルな注目を集めたトランスフォーマーベースのデコーダが生成したドラムシーケンスを生成する。
論文 参考訳(メタデータ) (2022-02-09T13:49:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。