論文の概要: Sound and Music Biases in Deep Music Transcription Models: A Systematic Analysis
- arxiv url: http://arxiv.org/abs/2512.14602v1
- Date: Tue, 16 Dec 2025 17:12:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.809941
- Title: Sound and Music Biases in Deep Music Transcription Models: A Systematic Analysis
- Title(参考訳): ディープ・ミュージック・転写モデルにおける音と音楽のバイアス:システム分析
- Authors: Lukáš Samuel Marták, Patricia Hu, Gerhard Widmer,
- Abstract要約: この研究は音楽の次元、特にジャンル、ダイナミクス、ポリフォニーのレベルの変化について研究している。
我々はMDSコーパスを導入し、Genre, (2) Random, (3) MAEtestの3つの異なるサブセットからなる。
我々は,従来の情報検索と音楽的インフォームドのパフォーマンス指標を用いて,MDSコーパス上での最先端ATTシステムの性能評価を行った。
- 参考スコア(独自算出の注目度): 6.87202900256721
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic Music Transcription (AMT) -- the task of converting music audio into note representations -- has seen rapid progress, driven largely by deep learning systems. Due to the limited availability of richly annotated music datasets, much of the progress in AMT has been concentrated on classical piano music, and even a few very specific datasets. Whether these systems can generalize effectively to other musical contexts remains an open question. Complementing recent studies on distribution shifts in sound (e.g., recording conditions), in this work we investigate the musical dimension -- specifically, variations in genre, dynamics, and polyphony levels. To this end, we introduce the MDS corpus, comprising three distinct subsets -- (1) Genre, (2) Random, and (3) MAEtest -- to emulate different axes of distribution shift. We evaluate the performance of several state-of-the-art AMT systems on the MDS corpus using both traditional information-retrieval and musically-informed performance metrics. Our extensive evaluation isolates and exposes varying degrees of performance degradation under specific distribution shifts. In particular, we measure a note-level F1 performance drop of 20 percentage points due to sound, and 14 due to genre. Generally, we find that dynamics estimation proves more vulnerable to musical variation than onset prediction. Musically informed evaluation metrics, particularly those capturing harmonic structure, help identify potential contributing factors. Furthermore, experiments with randomly generated, non-musical sequences reveal clear limitations in system performance under extreme musical distribution shifts. Altogether, these findings offer new evidence of the persistent impact of the Corpus Bias problem in deep AMT systems.
- Abstract(参考訳): 音楽音声を音符表現に変換するAMT(Automatic Music Transcription)が急速に進歩し、主にディープラーニングシステムによって推進されている。
リッチな注釈付き音楽データセットの入手が限られているため、AMTの進歩の大部分はクラシックピアノ音楽に集中しており、非常に具体的なデータセットもいくつかある。
これらのシステムが他の音楽的文脈に効果的に一般化できるかどうかは未解決の問題である。
本研究は, 音の分布変化(例えば, 録音条件)に関する最近の研究を補完し, ジャンル, ダイナミックス, ポリフォニーレベルにおける音楽次元の変動について考察する。
我々は,従来の情報検索と音楽的インフォームドのパフォーマンス指標を用いて,MDSコーパス上での最先端ATTシステムの性能評価を行った。
広範囲な評価により, 特定分布シフト下での各種性能劣化を分離し, 露光する。
特に、音量レベルF1は、音量によって20ポイント、ジャンルによって14ポイント低下する。
概して、動的推定は、オンセット予測よりも音楽的変動に弱いことが示される。
音楽的にインフォームドされた評価指標、特にハーモニック構造を捉えた指標は、潜在的に寄与する要因を特定するのに役立つ。
さらに、ランダムに生成された非楽音列による実験は、極端な音楽分布シフトの下でのシステム性能の明らかな限界を明らかにしている。
さらにこれらの発見は、深部ATTシステムにおけるCorpus Biasの問題の持続的影響の新たな証拠を提供する。
関連論文リスト
- A Study on the Data Distribution Gap in Music Emotion Recognition [7.281487567929003]
音楽感情認識(英語: Music Emotion Recognition, MER)は、人間の知覚に深く結びついている課題である。
先行研究は、様々なジャンルを取り入れるよりも、特定の音楽スタイルに焦点を当てる傾向がある。
音声コンテンツから感情を認識するタスクには,次元的感情アノテーションを用いた5つのデータセットを探索する。
論文 参考訳(メタデータ) (2025-10-06T10:57:05Z) - High-Quality Sound Separation Across Diverse Categories via Visually-Guided Generative Modeling [65.02357548201188]
DAVIS(Diffusion-based Audio-VIsual separation framework)を提案する。
本フレームワークは、混合音声入力と関連する視覚情報に基づいて、ノイズ分布から直接、所望の分離音スペクトルを合成することによって機能する。
論文 参考訳(メタデータ) (2025-09-26T08:46:00Z) - Towards an AI Musician: Synthesizing Sheet Music Problems for Musical Reasoning [69.78158549955384]
本稿では,ビートやインターバルをプログラム関数として扱うような,コア音楽理論のルールを扱う新しいアプローチを提案する。
このアプローチは、テキストと視覚の両方で検証可能な楽譜の質問を生成する。
SSMR-Benchの評価結果は,楽譜の解釈における重要な役割を浮き彫りにした。
論文 参考訳(メタデータ) (2025-09-04T09:42:17Z) - Progressive Rock Music Classification [0.0]
本研究では,複雑な構成と多種多様な楽器を特徴とするジャンルである,プログレッシブ・ロック音楽の分類について検討する。
我々は、スペクトログラム、Mel-Frequency Cepstral Coefficients (MFCC)、クロマグラム、歌のスニペットからのビート位置などの総合的なオーディオ特徴を抽出した。
スニペットレベルの予測を最終曲分類に集約するために、すべての投票を勝者とする戦略が採用された。
論文 参考訳(メタデータ) (2025-04-15T02:48:52Z) - Quantifying the Corpus Bias Problem in Automatic Music Transcription Systems [3.5570874721859016]
AMT(Automatic Music Transcription)は、音楽の音声録音における音符認識のタスクである。
我々は、音楽と音の2つの主要な分布シフト源を同定する。
2つの新しい実験セットにおいて,複数のSotA AMTシステムの性能評価を行った。
論文 参考訳(メタデータ) (2024-08-08T19:40:28Z) - Towards Explainable and Interpretable Musical Difficulty Estimation: A Parameter-efficient Approach [49.2787113554916]
音楽コレクションの整理には曲の難易度を推定することが重要である。
シンボリックな音楽表現の難易度推定には説明可能な記述子を用いる。
ピアノレパートリーで評価したアプローチは,平均2乗誤差(MSE)が1.7。
論文 参考訳(メタデータ) (2024-08-01T11:23:42Z) - A Perceptual Measure for Evaluating the Resynthesis of Automatic Music
Transcriptions [10.957528713294874]
本研究では,室内音響や楽器などの環境要因が変化した場合の演奏の知覚に焦点を当てた。
我々は「演出」の概念と「芸術的意図」を表現する「解釈」の概念を区別することを提案する。
論文 参考訳(メタデータ) (2022-02-24T18:09:22Z) - Towards Cross-Cultural Analysis using Music Information Dynamics [7.4517333921953215]
異なる文化の音楽は、2つの面で異なるスタイルのコンベンションを持つことによって異なる美学を確立する。
本稿では,これら2つの側面に着目し,異なる文化の楽曲を定量的に比較する枠組みを提案する。
論文 参考訳(メタデータ) (2021-11-24T16:05:29Z) - Sequence Generation using Deep Recurrent Networks and Embeddings: A
study case in music [69.2737664640826]
本稿では,異なる種類の記憶機構(メモリセル)について評価し,音楽合成分野におけるその性能について検討する。
提案したアーキテクチャの性能を自動評価するために,定量的な測定値のセットが提示される。
論文 参考訳(メタデータ) (2020-12-02T14:19:19Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z) - Multi-Modal Music Information Retrieval: Augmenting Audio-Analysis with
Visual Computing for Improved Music Video Analysis [91.3755431537592]
この論文は、音声分析とコンピュータビジョンを組み合わせて、マルチモーダルの観点から音楽情報検索(MIR)タスクにアプローチする。
本研究の主な仮説は、ジャンルやテーマなど特定の表現的カテゴリーを視覚的内容のみに基づいて認識できるという観察に基づいている。
実験は、3つのMIRタスクに対して行われ、アーティスト識別、音楽ジェネア分類、クロスジェネア分類を行う。
論文 参考訳(メタデータ) (2020-02-01T17:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。