論文の概要: A Perceptual Measure for Evaluating the Resynthesis of Automatic Music
Transcriptions
- arxiv url: http://arxiv.org/abs/2202.12257v1
- Date: Thu, 24 Feb 2022 18:09:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-25 18:37:01.232878
- Title: A Perceptual Measure for Evaluating the Resynthesis of Automatic Music
Transcriptions
- Title(参考訳): 自動音楽転写の再合成評価のための知覚的尺度
- Authors: Federico Simonetta and Federico Avanzini and Stavros Ntalampiras
- Abstract要約: 本研究では,室内音響や楽器などの環境要因が変化した場合の演奏の知覚に焦点を当てた。
我々は「演出」の概念と「芸術的意図」を表現する「解釈」の概念を区別することを提案する。
- 参考スコア(独自算出の注目度): 10.957528713294874
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study focuses on the perception of music performances when contextual
factors, such as room acoustics and instrument, change. We propose to
distinguish the concept of "performance" from the one of "interpretation",
which expresses the "artistic intention". Towards assessing this distinction,
we carried out an experimental evaluation where 91 subjects were invited to
listen to various audio recordings created by resynthesizing MIDI data obtained
through Automatic Music Transcription (AMT) systems and a sensorized acoustic
piano. During the resynthesis, we simulated different contexts and asked
listeners to evaluate how much the interpretation changes when the context
changes. Results show that: (1) MIDI format alone is not able to completely
grasp the artistic intention of a music performance; (2) usual objective
evaluation measures based on MIDI data present low correlations with the
average subjective evaluation. To bridge this gap, we propose a novel measure
which is meaningfully correlated with the outcome of the tests. In addition, we
investigate multimodal machine learning by providing a new score-informed AMT
method and propose an approximation algorithm for the $p$-dispersion problem.
- Abstract(参考訳): 本研究では,室内音響や楽器などの環境要因が変化する際の演奏の知覚に焦点を当てた。
本稿では「演出」の概念と「芸術的意図」を表現する「解釈」の概念を区別することを提案する。
この特徴を評価するために、91名の被験者を招待して、AMT(Automatic Music Transcription)システムとセンサ付き音響ピアノを用いて得られたMIDIデータを合成し、様々な録音を聴く実験を行った。
再合成中、異なるコンテキストをシミュレートし、コンテキストが変化すると解釈がどの程度変化するかを評価するようリスナーに求めた。
その結果,(1)MIDI形式だけでは音楽演奏の芸術的意図を完全に把握できないこと,(2)MIDIデータに基づく通常の客観的評価は平均主観的評価と相関が低いこと,などが示唆された。
このギャップを埋めるために,テストの結果と有意義に相関する新しい尺度を提案する。
さらに,スコアインフォームドamt法を新たに提供し,マルチモーダル機械学習の検討を行い,$p$-dispersion問題に対する近似アルゴリズムを提案する。
関連論文リスト
- Automatic Estimation of Singing Voice Musical Dynamics [9.343063100314687]
本稿では,データセットキュレーションの方法論を提案する。
我々は163のスコアファイルと一致して509の楽曲のダイナミックスを歌声の演奏に注釈付けしたデータセットをコンパイルする。
我々は、様々なウィンドウサイズを持つCNNモデルを訓練し、音楽力学を推定するの有効性を評価する。
実験の結果,バークスケールによる音声力学予測は対数メル特徴よりも優れていた。
論文 参考訳(メタデータ) (2024-10-27T18:15:18Z) - Quantifying the Corpus Bias Problem in Automatic Music Transcription Systems [3.5570874721859016]
AMT(Automatic Music Transcription)は、音楽の音声録音における音符認識のタスクである。
我々は、音楽と音の2つの主要な分布シフト源を同定する。
2つの新しい実験セットにおいて,複数のSotA AMTシステムの性能評価を行った。
論文 参考訳(メタデータ) (2024-08-08T19:40:28Z) - Towards Explainable and Interpretable Musical Difficulty Estimation: A Parameter-efficient Approach [49.2787113554916]
音楽コレクションの整理には曲の難易度を推定することが重要である。
シンボリックな音楽表現の難易度推定には説明可能な記述子を用いる。
ピアノレパートリーで評価したアプローチは,平均2乗誤差(MSE)が1.7。
論文 参考訳(メタデータ) (2024-08-01T11:23:42Z) - MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。
本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。
音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-06-07T06:38:59Z) - RMSSinger: Realistic-Music-Score based Singing Voice Synthesis [56.51475521778443]
RMS-SVSは、異なる音符タイプでリアル音楽のスコアを与えられた高品質な歌声を生成することを目的としている。
RMS-SVS方式であるRMSSingerを提案する。
RMSSingerでは,時間を要する音素の持続時間アノテーションと複雑な音素レベルのメルノートアライメントを避けるために,単語レベルのモデリングを導入する。
論文 参考訳(メタデータ) (2023-05-18T03:57:51Z) - Context-aware Automatic Music Transcription [10.957528713294874]
本稿では,文脈関連情報を組み込んだ自動音楽書き起こしシステムを提案する。
最先端の心理学研究を動機として,ATTシステムの精度向上手法を提案する。
論文 参考訳(メタデータ) (2022-03-30T13:36:17Z) - Contrastive Learning with Positive-Negative Frame Mask for Music
Representation [91.44187939465948]
本稿では,PEMRと略記したコントラッシブラーニングフレームワークに基づく,音楽表現のための正負負のフレームマスクを提案する。
我々は,同じ音楽からサンプリングした自己増強陽性/陰性の両方に対応するために,新しいコントラスト学習目標を考案した。
論文 参考訳(メタデータ) (2022-03-17T07:11:42Z) - Structure-Aware Audio-to-Score Alignment using Progressively Dilated
Convolutional Neural Networks [8.669338893753885]
音楽演奏と楽譜の間の構造的差異の同定は、音声とスコアのアライメントにおいて難しいが不可欠なステップである。
本稿では、進化的に拡張された畳み込みニューラルネットワークを用いて、そのような違いを検出する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-01-31T05:14:58Z) - Score-informed Networks for Music Performance Assessment [64.12728872707446]
MPAモデルにスコア情報を組み込んだディープニューラルネットワークに基づく手法はまだ研究されていない。
スコアインフォームド性能評価が可能な3つのモデルを提案する。
論文 参考訳(メタデータ) (2020-08-01T07:46:24Z) - Time-Frequency Scattering Accurately Models Auditory Similarities
Between Instrumental Playing Techniques [5.923588533979649]
音色知覚は楽器や演奏技術だけで提供されるものよりも柔軟な分類法で機能することを示す。
本稿では,楽器,ミュート,技法間の類似性のクラスタグラフを復元するマシンリスニングモデルを提案する。
論文 参考訳(メタデータ) (2020-07-21T16:37:15Z) - Audio Impairment Recognition Using a Correlation-Based Feature
Representation [85.08880949780894]
本稿では,特徴対の相関に基づく手作り特徴の新しい表現を提案する。
実験段階において,コンパクトな特徴次元と計算速度の向上の観点から,優れた性能を示す。
論文 参考訳(メタデータ) (2020-03-22T13:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。