論文の概要: Joint Estimation of Piano Dynamics and Metrical Structure with a Multi-task Multi-Scale Network
- arxiv url: http://arxiv.org/abs/2510.18190v1
- Date: Tue, 21 Oct 2025 00:32:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.743741
- Title: Joint Estimation of Piano Dynamics and Metrical Structure with a Multi-task Multi-Scale Network
- Title(参考訳): マルチタスクマルチスケールネットワークを用いたピアノダイナミクスとメトリカル構造の共同推定
- Authors: Zhanhong He, Hanyu Meng, David Huang, Roberto Togneri,
- Abstract要約: オーディオ録音からピアノ力学を推定することは、計算音楽解析における根本的な課題である。
本稿では,共有潜在表現からの動的レベル,変化点,ビート,ダウンビートを共同で予測する,効率的なマルチタスクネットワークを提案する。
この研究はピアノの動的推定のための新しいベンチマークを設定し、強力でコンパクトなツールを提供する。
- 参考スコア(独自算出の注目度): 8.15092528061709
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Estimating piano dynamic from audio recordings is a fundamental challenge in computational music analysis. In this paper, we propose an efficient multi-task network that jointly predicts dynamic levels, change points, beats, and downbeats from a shared latent representation. These four targets form the metrical structure of dynamics in the music score. Inspired by recent vocal dynamic research, we use a multi-scale network as the backbone, which takes Bark-scale specific loudness as the input feature. Compared to log-Mel as input, this reduces model size from 14.7 M to 0.5 M, enabling long sequential input. We use a 60-second audio length in audio segmentation, which doubled the length of beat tracking commonly used. Evaluated on the public MazurkaBL dataset, our model achieves state-of-the-art results across all tasks. This work sets a new benchmark for piano dynamic estimation and delivers a powerful and compact tool, paving the way for large-scale, resource-efficient analysis of musical expression.
- Abstract(参考訳): オーディオ録音からピアノ力学を推定することは、計算音楽解析における根本的な課題である。
本稿では,共有潜在表現からの動的レベル,変化点,ビート,ダウンビートを共同で予測する,効率的なマルチタスクネットワークを提案する。
これら4つのターゲットは、音楽の楽譜における力学の計量構造を形成する。
近年の発声力学研究に触発されて,マルチスケールネットワークをバックボーンとして使用し,バークスケールの特定音の大きさを入力特徴とする。
入力としてlog-Melと比較すると、モデルサイズを14.7Mから0.5Mに削減し、長いシーケンシャル入力を可能にする。
オーディオセグメンテーションでは60秒の音声長を使用し、これは一般的に使用されているビートトラッキングの長さを2倍にした。
パブリックなMazurkaBLデータセットに基づいて、我々のモデルはすべてのタスクで最先端の結果を得る。
この研究はピアノの動的推定のための新しいベンチマークを設定し、強力でコンパクトなツールを提供し、音楽表現の大規模かつ資源効率の高い分析の道を開く。
関連論文リスト
- AudioMarathon: A Comprehensive Benchmark for Long-Context Audio Understanding and Efficiency in Audio LLMs [53.248502396225724]
AudioMarathonは、ロングフォームオーディオの理解と推論の効率を評価するために設計されたベンチマークである。
我々は、最先端のLALMを評価し、音声の長さが大きくなるにつれて、明らかな性能低下を観察する。
その結果、現在のLALM間での大きなギャップが示され、時間的推論の改善の必要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-10-08T17:50:16Z) - Two Web Toolkits for Multimodal Piano Performance Dataset Acquisition and Fingering Annotation [56.318475235705954]
2つのグラフィカルユーザインタフェース(GUI)からなる統合Webツールキットを提案する。
PiaRecは、オーディオ、ビデオ、MIDI、パフォーマンスメタデータの同時取得をサポートする。
ASDFは、視覚データからパフォーマーフィンガーの効率的なアノテーションを可能にする。
論文 参考訳(メタデータ) (2025-09-18T17:59:24Z) - Automatic Estimation of Singing Voice Musical Dynamics [9.343063100314687]
本稿では,データセットキュレーションの方法論を提案する。
我々は163のスコアファイルと一致して509の楽曲のダイナミックスを歌声の演奏に注釈付けしたデータセットをコンパイルする。
我々は、様々なウィンドウサイズを持つCNNモデルを訓練し、音楽力学を推定するの有効性を評価する。
実験の結果,バークスケールによる音声力学予測は対数メル特徴よりも優れていた。
論文 参考訳(メタデータ) (2024-10-27T18:15:18Z) - CoLLAP: Contrastive Long-form Language-Audio Pretraining with Musical Temporal Structure Augmentation [17.41880273107978]
Contrastive Long-form Language-Audio Pretraining (textbfCoLLAP)
入力音声(最大5分)と言語記述(250語)の認識窓を著しく拡張するコントラストロングフォーム言語事前学習(textbfCoLLAP)を提案する。
大規模なAudioSetトレーニングデータセットから51.3Kのオーディオテキストペアを収集し,平均オーディオ長が288秒に達する。
論文 参考訳(メタデータ) (2024-10-03T07:46:51Z) - End-to-End Real-World Polyphonic Piano Audio-to-Score Transcription with Hierarchical Decoding [4.604877755214193]
既存のピアノA2Sシステムは、合成データのみで訓練され、評価されている。
楽譜の階層構造に整合した階層デコーダを用いたシーケンス・ツー・シーケンス(Seq2Seq)モデルを提案する。
本研究では,合成音声上での表現的パフォーマンスレンダリングシステムを用いてモデルを事前学習する2段階学習手法を提案し,続いて人間の演奏記録を用いてモデルを微調整する。
論文 参考訳(メタデータ) (2024-05-22T10:52:04Z) - Multi-view MidiVAE: Fusing Track- and Bar-view Representations for Long
Multi-track Symbolic Music Generation [50.365392018302416]
長い多トラックのシンボリック・ミュージックを効果的にモデル化・生成するVAE手法の先駆者の一つであるMulti-view MidiVAEを提案する。
我々は,ハイブリッドな変分符号化・復号化戦略を用いて,楽器の特徴と調和,および楽曲のグローバルおよびローカルな情報に焦点をあてる。
論文 参考訳(メタデータ) (2024-01-15T08:41:01Z) - Learning the Dynamic Correlations and Mitigating Noise by Hierarchical
Convolution for Long-term Sequence Forecasting [9.863383186173394]
本稿では,様々な規模で時系列から情報を抽出する階層的畳み込み構造を提案する。
特に、階層的な畳み込み構造を導入し、様々なスケールでシリーズから情報を抽出する。
5つのベンチマークの実験では、HMNetはMSEで10.6%、MAEで5.7%、最先端のモデルで大幅に優れていた。
論文 参考訳(メタデータ) (2023-12-28T02:34:25Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z) - Fast accuracy estimation of deep learning based multi-class musical
source separation [79.10962538141445]
本稿では,ニューラルネットワークのトレーニングやチューニングを行うことなく,任意のデータセットにおける楽器の分離性を評価する手法を提案する。
理想的な比マスクを持つオラクルの原理に基づいて、我々の手法は最先端のディープラーニング手法の分離性能を推定するための優れたプロキシである。
論文 参考訳(メタデータ) (2020-10-19T13:05:08Z) - Score-informed Networks for Music Performance Assessment [64.12728872707446]
MPAモデルにスコア情報を組み込んだディープニューラルネットワークに基づく手法はまだ研究されていない。
スコアインフォームド性能評価が可能な3つのモデルを提案する。
論文 参考訳(メタデータ) (2020-08-01T07:46:24Z) - Modeling Musical Structure with Artificial Neural Networks [0.0]
音楽構造モデリングのさまざまな側面に対する人工知能の適用について検討する。
Gated Autoencoder(GAE)というコネクショナリストモデルを用いて,楽曲の断片間の変換を学習する方法を示す。
本稿では,ポリフォニック・ミュージックを区間の連続として表現するGAEの特別な予測訓練を提案する。
論文 参考訳(メタデータ) (2020-01-06T18:35:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。