論文の概要: BACHI: Boundary-Aware Symbolic Chord Recognition Through Masked Iterative Decoding on Pop and Classical Music
- arxiv url: http://arxiv.org/abs/2510.06528v1
- Date: Wed, 08 Oct 2025 00:02:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.232899
- Title: BACHI: Boundary-Aware Symbolic Chord Recognition Through Masked Iterative Decoding on Pop and Classical Music
- Title(参考訳): BACHI:ポップやクラシック音楽のマスク反復復号による境界認識型シンボリックコード認識
- Authors: Mingyang Yao, Ke Chen, Shlomo Dubnov, Taylor Berg-Kirkpatrick,
- Abstract要約: POP909-CLは、テンポに整合したコンテンツと、コード、ビート、キー、タイムシグネチャの訂正されたラベルを持つPOP909データセットの強化版である。
本研究では,タスクを異なる決定ステップ,すなわちコード根,品質,ベース(反転)の境界検出と反復的なランク付けに分解する記号的コード認識モデルであるBACHIを提案する。
実験により,BACHIは古典的およびポップ音楽のベンチマークにおいて,最先端のコード認識性能を達成することが示された。
- 参考スコア(独自算出の注目度): 37.085465708242445
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic chord recognition (ACR) via deep learning models has gradually achieved promising recognition accuracy, yet two key challenges remain. First, prior work has primarily focused on audio-domain ACR, while symbolic music (e.g., score) ACR has received limited attention due to data scarcity. Second, existing methods still overlook strategies that are aligned with human music analytical practices. To address these challenges, we make two contributions: (1) we introduce POP909-CL, an enhanced version of POP909 dataset with tempo-aligned content and human-corrected labels of chords, beats, keys, and time signatures; and (2) We propose BACHI, a symbolic chord recognition model that decomposes the task into different decision steps, namely boundary detection and iterative ranking of chord root, quality, and bass (inversion). This mechanism mirrors the human ear-training practices. Experiments demonstrate that BACHI achieves state-of-the-art chord recognition performance on both classical and pop music benchmarks, with ablation studies validating the effectiveness of each module.
- Abstract(参考訳): ディープラーニングモデルによる自動コード認識(ACR)は、徐々に有望な認識精度を達成しているが、2つの重要な課題が残っている。
まず、先行研究は主にオーディオドメインのACRに焦点を合わせ、一方、記号音楽(例えば、スコア)のACRはデータ不足により限られた注目を集めている。
第二に、既存の手法は人間の音楽分析の実践に沿った戦略を見落としている。
これらの課題に対処するため,(1)POP909-CL,(1)テンポに整合したコンテンツ付きPOP909データセット,(2)コード,ビート,キー,および時刻シグネチャの人為的補正ラベルを導入したPOP909-CLを導入し,(2)タスクを異なる決定ステップ,すなわちコード根,品質,低音の反復的ランク付けに分解する記号的コード認識モデルであるBACHIを提案する。
このメカニズムは人間の耳の練習を反映している。
実験により,BACHIは古典的およびポップ音楽のベンチマークにおいて,最先端のコード認識性能を達成し,各モジュールの有効性を検証した。
関連論文リスト
- SAGE-Music: Low-Latency Symbolic Music Generation via Attribute-Specialized Key-Value Head Sharing [38.95508193655578]
低レイテンシなシンボリック音楽生成は、リアルタイムおよび人間とAIの共創に不可欠である。
埋め込みプールのような従来のアクセラレーション技術は、音楽の質を著しく低下させる。
本稿では,Attribute-Specialized Key-Value Head Sharing (AS-KVHS)を提案する。
論文 参考訳(メタデータ) (2025-10-01T01:11:43Z) - Scaling Self-Supervised Representation Learning for Symbolic Piano Performance [52.661197827466886]
本研究では,多量のシンボリック・ピアノ転写を訓練した自己回帰型トランスフォーマモデルの能力について検討した。
比較的小型で高品質なサブセットをファインチューンモデルに使い、音楽の継続を生成、シンボリックな分類タスクを実行し、汎用的なコントラストMIDI埋め込みを生成する。
論文 参考訳(メタデータ) (2025-06-30T14:00:14Z) - Refining music sample identification with a self-supervised graph neural network [16.73613870989583]
本稿では,グラフニューラルネットワークを用いた軽量でスケーラブルな符号化アーキテクチャを提案する。
我々のモデルは、現在の最先端システムと比較してトレーニング可能なパラメータの9%しか使用せず、平均平均精度(mAP)は44.2%に達している。
さらに,実世界のアプリケーションにおけるクエリは時間的に短い場合が多いため,Sample100データセットに対する新たな詳細なアノテーションを用いて,短いクエリをベンチマークする。
論文 参考訳(メタデータ) (2025-06-17T16:19:21Z) - ChordFormer: A Conformer-Based Architecture for Large-Vocabulary Audio Chord Recognition [1.2187048691454239]
和音認識は、音楽分析における和音の記述的性質により、音楽情報検索において重要な課題となる。
この研究は、大きな語彙に対する構造的コード認識(トリアード、ベース、セブンズなど)に取り組むために設計された、新しいコンバータベースのアーキテクチャであるChordFormerを提案する。
ChordFormerは最先端モデルより優れており、フレームワイドの精度が2%向上し、大語彙のコードデータセットではクラスワイドの精度が6%向上している。
論文 参考訳(メタデータ) (2025-02-17T14:35:16Z) - MuseBarControl: Enhancing Fine-Grained Control in Symbolic Music Generation through Pre-Training and Counterfactual Loss [51.85076222868963]
制御信号と対応する音楽トークンを直接リンクする事前学習タスクを導入する。
次に、生成した音楽と制御プロンプトとの整合性を向上する新たな対実的損失を実現する。
論文 参考訳(メタデータ) (2024-07-05T08:08:22Z) - The Overlooked Classifier in Human-Object Interaction Recognition [82.20671129356037]
クラス間の意味的相関を分類ヘッドにエンコードし,重みをHOIの言語埋め込みで初期化する。
我々は,LSE-Sign という新しい損失を,長い尾を持つデータセット上でのマルチラベル学習を強化するために提案する。
我々は,物体検出と人間のポーズを明確なマージンで求める最先端技術よりも優れた,検出不要なHOI分類を可能にする。
論文 参考訳(メタデータ) (2022-03-10T23:35:00Z) - Improving the Classification of Rare Chords with Unlabeled Data [1.0312968200748118]
ACR(Automatic Chord Recognition)タスクにおけるレアクラスのパフォーマンス向上手法について検討する。
まず, 硬質試料の分類を改善するために提案されたACRの文脈における焦点損失の利用について検討した。
並行して,音楽領域に画像認識のための自己学習手法を適用した。
論文 参考訳(メタデータ) (2020-12-13T13:02:55Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z) - Audio Impairment Recognition Using a Correlation-Based Feature
Representation [85.08880949780894]
本稿では,特徴対の相関に基づく手作り特徴の新しい表現を提案する。
実験段階において,コンパクトな特徴次元と計算速度の向上の観点から,優れた性能を示す。
論文 参考訳(メタデータ) (2020-03-22T13:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。