Fugu-MT 論文翻訳(概要): Quantifying the Corpus Bias Problem in Automatic Music Transcription Systems

論文の概要: Quantifying the Corpus Bias Problem in Automatic Music Transcription Systems

arxiv url: http://arxiv.org/abs/2408.04737v1
Date: Thu, 8 Aug 2024 19:40:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-12 17:18:49.485492
Title: Quantifying the Corpus Bias Problem in Automatic Music Transcription Systems
Title（参考訳）: 自動音声書き起こしシステムにおけるコーパスバイアス問題の定量化
Authors: Lukáš Samuel Marták, Patricia Hu, Gerhard Widmer,
Abstract要約: AMT(Automatic Music Transcription)は、音楽の音声録音における音符認識のタスクである。我々は、音楽と音の2つの主要な分布シフト源を同定する。 2つの新しい実験セットにおいて,複数のSotA AMTシステムの性能評価を行った。
参考スコア（独自算出の注目度）: 3.5570874721859016
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Automatic Music Transcription (AMT) is the task of recognizing notes in audio recordings of music. The State-of-the-Art (SotA) benchmarks have been dominated by deep learning systems. Due to the scarcity of high quality data, they are usually trained and evaluated exclusively or predominantly on classical piano music. Unfortunately, that hinders our ability to understand how they generalize to other music. Previous works have revealed several aspects of memorization and overfitting in these systems. We identify two primary sources of distribution shift: the music, and the sound. Complementing recent results on the sound axis (i.e. acoustics, timbre), we investigate the musical one (i.e. note combinations, dynamics, genre). We evaluate the performance of several SotA AMT systems on two new experimental test sets which we carefully construct to emulate different levels of musical distribution shift. Our results reveal a stark performance gap, shedding further light on the Corpus Bias problem, and the extent to which it continues to trouble these systems.
Abstract（参考訳）: AMT(Automatic Music Transcription)は、音楽の音声録音における音符認識のタスクである。 State-of-the-Art(SotA)ベンチマークはディープラーニングシステムに支配されている。高品質なデータが不足しているため、それらは通常、古典的なピアノ音楽にのみ、あるいは主に焦点を当てて訓練され、評価される。残念なことに、それが他の音楽への一般化の仕方を理解するのを妨げている。以前の研究は、これらのシステムにおける記憶と過剰適合のいくつかの側面を明らかにしている。我々は、音楽と音の2つの主要な分布シフト源を同定する。音の軸(音響,音色)に関する最近の結果を補足し,楽譜(音の組合せ,ダイナミクス,ジャンル)について検討する。そこで我々は,異なるレベルの音楽分布シフトをエミュレートするために慎重に構成した2つの実験セットを用いて,複数のSotA AMTシステムの性能評価を行った。以上の結果から,Corpus Bias問題にさらなる光が当たる性能ギャップが明らかとなり,これらのシステムに支障が生じ続けていることが示唆された。

関連論文リスト

Progressive Rock Music Classification [0.0]
本研究では,複雑な構成と多種多様な楽器を特徴とするジャンルである,プログレッシブ・ロック音楽の分類について検討する。我々は、スペクトログラム、Mel-Frequency Cepstral Coefficients (MFCC)、クロマグラム、歌のスニペットからのビート位置などの総合的なオーディオ特徴を抽出した。スニペットレベルの予測を最終曲分類に集約するために、すべての投票を勝者とする戦略が採用された。
論文参考訳（メタデータ） (2025-04-15T02:48:52Z)
Learning Musical Representations for Music Performance Question Answering [10.912207282129753]
マルチモーダル学習法は音楽演奏の基本的問題に対処できない。私たちのメインのバックボーンは、音楽データのコンテキストにマルチモーダルインタラクションを組み込むように設計されています。本実験は,音楽AVQAデータセットに対する最先端効果を示す。
論文参考訳（メタデータ） (2025-02-10T17:41:57Z)
Towards Explainable and Interpretable Musical Difficulty Estimation: A Parameter-efficient Approach [49.2787113554916]
音楽コレクションの整理には曲の難易度を推定することが重要である。シンボリックな音楽表現の難易度推定には説明可能な記述子を用いる。ピアノレパートリーで評価したアプローチは,平均2乗誤差(MSE)が1.7。
論文参考訳（メタデータ） (2024-08-01T11:23:42Z)
Cluster and Separate: a GNN Approach to Voice and Staff Prediction for Score Engraving [5.572472212662453]
本稿では,音符を量子化された記号楽曲(例えばMIDIファイル)から複数の音声とステーブに分離する問題にアプローチする。本稿では,同じ和音に属する音符を音声の一部であればエッジで接続する,グラフニューラルネットワークに基づくエンドツーエンドシステムを提案する。
論文参考訳（メタデータ） (2024-07-15T14:36:13Z)
Self-Supervised Contrastive Learning for Robust Audio-Sheet Music Retrieval Systems [3.997809845676912]
自己指導型コントラスト学習は、実際の音楽コンテンツからの注釈付きデータの不足を軽減することができることを示す。クロスモーダルなピース識別の高レベルなタスクにスニペットを埋め込む。本研究では,実際の音楽データが存在する場合,検索品質が30%から100%に向上することが観察された。
論文参考訳（メタデータ） (2023-09-21T14:54:48Z)
RMSSinger: Realistic-Music-Score based Singing Voice Synthesis [56.51475521778443]
RMS-SVSは、異なる音符タイプでリアル音楽のスコアを与えられた高品質な歌声を生成することを目的としている。 RMS-SVS方式であるRMSSingerを提案する。 RMSSingerでは,時間を要する音素の持続時間アノテーションと複雑な音素レベルのメルノートアライメントを避けるために,単語レベルのモデリングを導入する。
論文参考訳（メタデータ） (2023-05-18T03:57:51Z)
Contrastive Learning with Positive-Negative Frame Mask for Music Representation [91.44187939465948]
本稿では,PEMRと略記したコントラッシブラーニングフレームワークに基づく,音楽表現のための正負負のフレームマスクを提案する。我々は,同じ音楽からサンプリングした自己増強陽性/陰性の両方に対応するために,新しいコントラスト学習目標を考案した。
論文参考訳（メタデータ） (2022-03-17T07:11:42Z)
A Perceptual Measure for Evaluating the Resynthesis of Automatic Music Transcriptions [10.957528713294874]
本研究では,室内音響や楽器などの環境要因が変化した場合の演奏の知覚に焦点を当てた。我々は「演出」の概念と「芸術的意図」を表現する「解釈」の概念を区別することを提案する。
論文参考訳（メタデータ） (2022-02-24T18:09:22Z)
Bach or Mock? A Grading Function for Chorales in the Style of J.S. Bach [74.09517278785519]
本稿では,J.S.バッハ様式の4パート合唱曲を重要な音楽的特徴とともに評価するグレーディング機能を提案する。この機能は,Bach合唱曲とモデル生成の合唱曲を区別する上で,人間専門家より優れていることを示す。
論文参考訳（メタデータ） (2020-06-23T21:02:55Z)
Optical Music Recognition: State of the Art and Major Challenges [0.0]
光音楽認識(OMR)は、楽譜を機械可読形式に変換することを目的としている。書き起こされたコピーは、ミュージシャンが楽譜の写真を撮って作曲、演奏、編集を行えるようにする。近年,従来のコンピュータビジョン技術から深層学習手法への移行が進んでいる。
論文参考訳（メタデータ） (2020-06-14T12:40:17Z)
Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文参考訳（メタデータ） (2020-04-20T17:53:46Z)
Multi-Modal Music Information Retrieval: Augmenting Audio-Analysis with Visual Computing for Improved Music Video Analysis [91.3755431537592]
この論文は、音声分析とコンピュータビジョンを組み合わせて、マルチモーダルの観点から音楽情報検索(MIR)タスクにアプローチする。本研究の主な仮説は、ジャンルやテーマなど特定の表現的カテゴリーを視覚的内容のみに基づいて認識できるという観察に基づいている。実験は、3つのMIRタスクに対して行われ、アーティスト識別、音楽ジェネア分類、クロスジェネア分類を行う。
論文参考訳（メタデータ） (2020-02-01T17:57:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。