論文の概要: Evaluating High-Resolution Piano Sustain Pedal Depth Estimation with Musically Informed Metrics
- arxiv url: http://arxiv.org/abs/2510.03750v1
- Date: Sat, 04 Oct 2025 09:29:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.23015
- Title: Evaluating High-Resolution Piano Sustain Pedal Depth Estimation with Musically Informed Metrics
- Title(参考訳): 音楽インフォームドメトリックを用いた高分解能ピアノのペダル深さ推定の評価
- Authors: Hanwen Zhang, Kun Fang, Ziyu Wang, Ichiro Fujinaga,
- Abstract要約: 本稿では,標準フレームレベルの指標を行動レベル評価の方向とタイミングで拡張する評価フレームワークを提案する。
その結果,MIDIインフォームドモデルでは,フレームレベルがわずかに向上するにもかかわらず,動作レベルやジェスチャーレベルにおいて,他のモデルよりも有意に優れていた。
- 参考スコア(独自算出の注目度): 6.751810806583042
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluation for continuous piano pedal depth estimation tasks remains incomplete when relying only on conventional frame-level metrics, which overlook musically important features such as direction-change boundaries and pedal curve contours. To provide more interpretable and musically meaningful insights, we propose an evaluation framework that augments standard frame-level metrics with an action-level assessment measuring direction and timing using segments of press/hold/release states and a gesture-level analysis that evaluates contour similarity of each press-release cycle. We apply this framework to compare an audio-only baseline with two variants: one incorporating symbolic information from MIDI, and another trained in a binary-valued setting, all within a unified architecture. Results show that the MIDI-informed model significantly outperforms the others at action and gesture levels, despite modest frame-level gains. These findings demonstrate that our framework captures musically relevant improvements indiscernible by traditional metrics, offering a more practical and effective approach to evaluating pedal depth estimation models.
- Abstract(参考訳): 連続ピアノペダル深度推定タスクの評価は、方向変化境界やペダルカーブの輪郭といった音楽的に重要な特徴を無視する従来のフレームレベルの指標にのみ依存する場合に不完全なままである。
より解釈可能で音楽的に有意義な洞察を提供するために,プレス/ホールド/リリース状態のセグメントを用いて,アクションレベル評価の方向とタイミングで標準フレームレベルメトリクスを増強する評価フレームワークと,各プレス/リリースサイクルの輪郭類似性を評価するジェスチャーレベル解析を提案する。
このフレームワークを用いて,MIDIのシンボル情報を組み込んだ音声のみのベースラインと,バイナリ値設定で訓練した2つのバリエーションを比較した。
その結果,MIDIインフォームドモデルでは,フレームレベルがわずかに向上するにもかかわらず,動作レベルやジェスチャーレベルにおいて,他のモデルよりも有意に優れていた。
これらの結果から,本フレームワークは従来のメトリクスでは認識できない音楽的改善を捉え,ペダル深度推定モデルを評価するためのより実践的で効果的なアプローチを提供する。
関連論文リスト
- High-Resolution Sustain Pedal Depth Estimation from Piano Audio Across Room Acoustics [3.4022364443644726]
本稿では, 連続ペダル深度を推定する高分解能推定手法を提案する。
本稿では,従来のバイナリ分類タスクにおける最先端性能に適合するTransformerベースのアーキテクチャを提案する。
連続的な値を推定することにより、ペダルの使用を継続するための音楽的に意味のある予測を提供する。
論文 参考訳(メタデータ) (2025-07-06T03:40:54Z) - Scaling Self-Supervised Representation Learning for Symbolic Piano Performance [52.661197827466886]
本研究では,多量のシンボリック・ピアノ転写を訓練した自己回帰型トランスフォーマモデルの能力について検討した。
比較的小型で高品質なサブセットをファインチューンモデルに使い、音楽の継続を生成、シンボリックな分類タスクを実行し、汎用的なコントラストMIDI埋め込みを生成する。
論文 参考訳(メタデータ) (2025-06-30T14:00:14Z) - Aligning Text-to-Music Evaluation with Human Preferences [63.08368388389259]
本稿では,TTM(生成音響テキスト・ツー・ミュージック)モデルの評価のための基準ベース分散指標の設計空間について検討する。
私たちは、合成データと人間の嗜好データの両方に標準のFAD設定が矛盾しているだけでなく、既存の指標のほとんどすべてがデシデラタを効果的に捉えていないことに気付きました。
我々は,自己教師型音声埋め込みモデルから表現に基づいて計算したMAUVE Audio Divergence(MAD)を提案する。
論文 参考訳(メタデータ) (2025-03-20T19:31:04Z) - Zero-shot Musical Stem Retrieval with Joint-Embedding Predictive Architectures [3.463789345862036]
本稿では,コンテキストの潜在表現を生成するために,エンコーダと予測器を協調訓練する,結合埋め込み予測アーキテクチャに基づく新しい手法を提案する。
特に,任意の楽器に条件付けした予測器を設計し,ゼロショットステム検索を行えるようにした。
MUSDB18とMoisesDBデータセットを用いて,本モデルの検索性能を検証する。
論文 参考訳(メタデータ) (2024-11-29T16:11:47Z) - Skeleton2vec: A Self-supervised Learning Framework with Contextualized
Target Representations for Skeleton Sequence [56.092059713922744]
予測対象として高レベルな文脈化機能を使用することで,優れた性能が得られることを示す。
具体的には、シンプルで効率的な3D行動表現学習フレームワークであるSkeleton2vecを提案する。
提案するSkeleton2vecは,従来の手法より優れ,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-01-01T12:08:35Z) - Adaptive Local-Component-aware Graph Convolutional Network for One-shot
Skeleton-based Action Recognition [54.23513799338309]
骨格に基づく行動認識のための適応的局所成分認識グラフ畳み込みネットワークを提案する。
我々の手法はグローバルな埋め込みよりも強力な表現を提供し、我々のモデルが最先端に到達するのに役立ちます。
論文 参考訳(メタデータ) (2022-09-21T02:33:07Z) - A Perceptual Measure for Evaluating the Resynthesis of Automatic Music
Transcriptions [10.957528713294874]
本研究では,室内音響や楽器などの環境要因が変化した場合の演奏の知覚に焦点を当てた。
我々は「演出」の概念と「芸術的意図」を表現する「解釈」の概念を区別することを提案する。
論文 参考訳(メタデータ) (2022-02-24T18:09:22Z) - Adaptive Hierarchical Similarity Metric Learning with Noisy Labels [138.41576366096137]
適応的階層的類似度メトリック学習法を提案する。
ノイズに敏感な2つの情報、すなわち、クラスワイドのばらつきとサンプルワイドの一貫性を考える。
提案手法は,現在の深層学習手法と比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-10-29T02:12:18Z) - Structure-Aware Audio-to-Score Alignment using Progressively Dilated
Convolutional Neural Networks [8.669338893753885]
音楽演奏と楽譜の間の構造的差異の同定は、音声とスコアのアライメントにおいて難しいが不可欠なステップである。
本稿では、進化的に拡張された畳み込みニューラルネットワークを用いて、そのような違いを検出する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-01-31T05:14:58Z) - Score-informed Networks for Music Performance Assessment [64.12728872707446]
MPAモデルにスコア情報を組み込んだディープニューラルネットワークに基づく手法はまだ研究されていない。
スコアインフォームド性能評価が可能な3つのモデルを提案する。
論文 参考訳(メタデータ) (2020-08-01T07:46:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。