論文の概要: High-Resolution Sustain Pedal Depth Estimation from Piano Audio Across Room Acoustics
- arxiv url: http://arxiv.org/abs/2507.04230v1
- Date: Sun, 06 Jul 2025 03:40:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.077087
- Title: High-Resolution Sustain Pedal Depth Estimation from Piano Audio Across Room Acoustics
- Title(参考訳): 室内音響を用いたピアノ音場からの高分解能ペダル深さ推定
- Authors: Kun Fang, Hanwen Zhang, Ziyu Wang, Ichiro Fujinaga,
- Abstract要約: 本稿では, 連続ペダル深度を推定する高分解能推定手法を提案する。
本稿では,従来のバイナリ分類タスクにおける最先端性能に適合するTransformerベースのアーキテクチャを提案する。
連続的な値を推定することにより、ペダルの使用を継続するための音楽的に意味のある予測を提供する。
- 参考スコア(独自算出の注目度): 3.4022364443644726
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Piano sustain pedal detection has previously been approached as a binary on/off classification task, limiting its application in real-world piano performance scenarios where pedal depth significantly influences musical expression. This paper presents a novel approach for high-resolution estimation that predicts continuous pedal depth values. We introduce a Transformer-based architecture that not only matches state-of-the-art performance on the traditional binary classification task but also achieves high accuracy in continuous pedal depth estimation. Furthermore, by estimating continuous values, our model provides musically meaningful predictions for sustain pedal usage, whereas baseline models struggle to capture such nuanced expressions with their binary detection approach. Additionally, this paper investigates the influence of room acoustics on sustain pedal estimation using a synthetic dataset that includes varied acoustic conditions. We train our model with different combinations of room settings and test it in an unseen new environment using a "leave-one-out" approach. Our findings show that the two baseline models and ours are not robust to unseen room conditions. Statistical analysis further confirms that reverberation influences model predictions and introduces an overestimation bias.
- Abstract(参考訳): ピアノサスペンションペダル検出は従来,二進的なオン/オフ分類タスクとしてアプローチされており,ペダル深度が音楽表現に大きく影響する実世界のピアノ演奏シナリオにおいて,その適用を制限している。
本稿では, 連続ペダル深度を推定する高分解能推定手法を提案する。
本稿では,従来のバイナリ分類タスクにおける最先端性能と一致するだけでなく,連続ペダル深度推定の精度も高いTransformerベースのアーキテクチャを提案する。
さらに,連続的な値を推定することにより,ペダルの使用を継続するための音楽的に有意な予測を行う一方,ベースラインモデルは,そのようなニュアンス付き表現を2値検出手法で捉えるのに苦労する。
さらに, 室内音響が各種音響条件を含む合成データセットを用いた持続的なペダル推定に与える影響について検討した。
私たちは、部屋の設定の異なる組み合わせでモデルをトレーニングし、"Leve-one-out"アプローチを使って、目に見えない新しい環境でテストします。
以上の結果から,2つのベースラインモデルと我々のモデルでは,見えない室内環境に対して頑健ではないことが明らかとなった。
統計的分析により、残響がモデルの予測に影響を与え、過大評価バイアスをもたらすことが確認される。
関連論文リスト
- Joint Source-Environment Adaptation of Data-Driven Underwater Acoustic Source Ranging Based on Model Uncertainty [4.2671394819888455]
事前学習されたディープラーニングモデルを新しい未知の環境に適用することは、水中の音像定位において難しい課題である。
事前トレーニングされたモデルは、トレーニングデータとテストデータのミスマッチに苦しむパフォーマンスを持つが、一般的に、ミスマッチがより多い環境では、より高いインプリード不確実性を示す'。
本研究では,モデル予測の不確かさの定量化に有効な手法と,事前学習したモデルがテスト時に見つからない水中環境に適応するための革新的なアプローチを用いる。
論文 参考訳(メタデータ) (2025-03-30T00:00:17Z) - Conformalized Prediction of Post-Fault Voltage Trajectories Using Pre-trained and Finetuned Attention-Driven Neural Operators [9.336308366735656]
本稿では,電力系統における後電圧トラジェクトリの間隔を予測するための新しいデータ駆動手法を提案する。
提案した演算子回帰モデルでは、電圧軌跡の観測された部分を、観測後の未観測軌跡にマッピングする。
ニューイングランド39バス試験システムを用いて提案手法の性能評価を行った。
論文 参考訳(メタデータ) (2024-10-31T17:20:13Z) - Towards Robust Transcription: Exploring Noise Injection Strategies for Training Data Augmentation [55.752737615873464]
本研究では,SNR(Signal-to-Noise Ratio)レベルにおける白色雑音の影響について検討した。
この研究は、様々な音環境における一貫した性能を維持する転写モデルの開発に向けた予備的な研究として、貴重な洞察を与えてくれることを願っている。
論文 参考訳(メタデータ) (2024-10-18T02:31:36Z) - Unsupervised Blind Joint Dereverberation and Room Acoustics Estimation with Diffusion Models [21.669363620480333]
本稿では,BUDDy と呼ばれる単一チャネルブラインド除去と室内インパルス応答 (RIR) 推定のための教師なし手法を提案する。
周波数サブバンド毎に指数減衰したRIRを表すパラメトリックフィルタを設計する。
本稿では,RIR推定におけるBUDDyの性能について検討し,不整合音響条件に対する最先端の教師付き推定器を超越して観測する。
論文 参考訳(メタデータ) (2024-08-14T11:31:32Z) - Impact of Noisy Supervision in Foundation Model Learning [91.56591923244943]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Generative adversarial networks with physical sound field priors [6.256923690998173]
本稿では,GANを用いた音場再構築のための深層学習に基づくアプローチを提案する。
提案手法は, 平面波ベースと室内圧力の統計的分布を用いて, 限られた数の測定値から音場を再構成する。
提案手法は, 音場再構成に有望な手法であることを示す。
論文 参考訳(メタデータ) (2023-08-01T10:11:23Z) - DiffusionAD: Norm-guided One-step Denoising Diffusion for Anomaly Detection [80.20339155618612]
DiffusionADは、再構成サブネットワークとセグメンテーションサブネットワークからなる、新しい異常検出パイプラインである。
高速なワンステップデノゲーションパラダイムは、同等の再現品質を維持しながら、数百倍の加速を達成する。
異常の出現の多様性を考慮し、複数のノイズスケールの利点を統合するためのノルム誘導パラダイムを提案する。
論文 参考訳(メタデータ) (2023-03-15T16:14:06Z) - A Survey on Deep Learning based Channel Estimation in Doubly Dispersive
Environments [7.310043452300738]
無線通信システムは、動的環境におけるマルチパスのフェージングとドップラーシフトの影響を受けている。
従来の方法では、データ転送速度を維持するために、チャネル推定に数名のパイロットしか使われていない。
深層学習は、その低複雑さ、堅牢性、そして優れた一般化能力のために、二重分散チャネル推定に使われている。
論文 参考訳(メタデータ) (2022-06-05T12:44:50Z) - Dynamic Iterative Refinement for Efficient 3D Hand Pose Estimation [87.54604263202941]
本稿では,従来の推定値の修正に部分的レイヤを反復的に活用する,小さなディープニューラルネットワークを提案する。
学習したゲーティング基準を用いて、ウェイトシェアリングループから抜け出すかどうかを判断し、モデルにサンプルごとの適応を可能にする。
提案手法は,広く使用されているベンチマークの精度と効率の両面から,最先端の2D/3Dハンドポーズ推定手法より一貫して優れている。
論文 参考訳(メタデータ) (2021-11-11T23:31:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。