論文の概要: PianoVAM: A Multimodal Piano Performance Dataset
- arxiv url: http://arxiv.org/abs/2509.08800v1
- Date: Wed, 10 Sep 2025 17:35:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.530384
- Title: PianoVAM: A Multimodal Piano Performance Dataset
- Title(参考訳): PianoVAM:マルチモーダルピアノパフォーマンスデータセット
- Authors: Yonghyun Kim, Junhyung Park, Joonhyung Bae, Kirak Kim, Taegyun Kwon, Alexander Lerch, Juhan Nam,
- Abstract要約: PianoVAMは、ビデオ、オーディオ、MIDI、手のランドマーク、指のラベル、リッチメタデータを含む包括的なピアノパフォーマンスデータセットである。
データセットはディクラヴィエピアノを使用して録音され、アマチュアピアニストの日々の練習セッション中にオーディオとMIDIをキャプチャした。
事前訓練されたポーズ推定モデルと半自動指先アノテーションアルゴリズムを用いて,手指のランドマークと指先ラベルを抽出した。
- 参考スコア(独自算出の注目度): 56.318475235705954
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The multimodal nature of music performance has driven increasing interest in data beyond the audio domain within the music information retrieval (MIR) community. This paper introduces PianoVAM, a comprehensive piano performance dataset that includes videos, audio, MIDI, hand landmarks, fingering labels, and rich metadata. The dataset was recorded using a Disklavier piano, capturing audio and MIDI from amateur pianists during their daily practice sessions, alongside synchronized top-view videos in realistic and varied performance conditions. Hand landmarks and fingering labels were extracted using a pretrained hand pose estimation model and a semi-automated fingering annotation algorithm. We discuss the challenges encountered during data collection and the alignment process across different modalities. Additionally, we describe our fingering annotation method based on hand landmarks extracted from videos. Finally, we present benchmarking results for both audio-only and audio-visual piano transcription using the PianoVAM dataset and discuss additional potential applications.
- Abstract(参考訳): 音楽演奏のマルチモーダルな性質は、音楽情報検索(MIR)コミュニティ内のオーディオ領域を超えて、データへの関心を高めている。
本稿では,ビデオ,オーディオ,MIDI,手指のランドマーク,指のラベル,豊富なメタデータを含む包括的なピアノ演奏データセットであるPianoVAMを紹介する。
データセットはDisklavierピアノを使用して録音され、アマチュアピアニストの日々の練習セッション中に録音された音声とMIDIを、リアルで多様なパフォーマンス条件下で同期されたトップビュービデオと共に記録した。
事前訓練されたポーズ推定モデルと半自動指先アノテーションアルゴリズムを用いて,手指のランドマークと指先ラベルを抽出した。
本稿では,データ収集における課題と,異なるモダリティ間のアライメントプロセスについて論じる。
また,ビデオから抽出した手指のランドマークに基づいて指のアノテーションを記述した。
最後に、PianoVAMデータセットを用いて、音声のみと音声視覚ピアノの双方に対するベンチマーク結果を示し、さらなる可能性について検討する。
関連論文リスト
- Towards Video to Piano Music Generation with Chain-of-Perform Support Benchmarks [6.895278984923356]
Chain-of-Perform (CoP)ベンチマークは、ビデオ誘導ピアノ音楽生成のための、完全にオープンソースでマルチモーダルなベンチマークである。
CoPベンチマークは詳細なマルチモーダルアノテーションを提供し、ビデオコンテンツとピアノオーディオの正確な意味と時間的アライメントを可能にする。
データセットはhttps://github.com/acappemin/Video-to-Audio-and-Pianoで公開されている。
論文 参考訳(メタデータ) (2025-05-26T14:24:19Z) - PIAST: A Multimodal Piano Dataset with Audio, Symbolic and Text [8.382511298208003]
PIAST(PIAST, PIano dataset with Audio, Symbolic, and Text)は、ピアノ音楽のデータセットである。
われわれはYouTubeから9,673曲を収集し、音楽の専門家による2,023曲の人間のアノテーションを追加した。
どちらも、オーディオ、テキスト、タグアノテーション、そして最先端のピアノの書き起こしとビート追跡モデルを利用したMIDIの書き起こしである。
論文 参考訳(メタデータ) (2024-11-04T19:34:13Z) - PianoMotion10M: Dataset and Benchmark for Hand Motion Generation in Piano Performance [15.21347897534943]
ピアノ演奏のための手の動きと指の動きをガイドするピアノハンド動作生成ベンチマークを構築した。
この目的のために,1000万個の手ポーズを持つ鳥眼ビューから116時間のピアノ演奏ビデオからなる注釈付きデータセットPianoMotion10Mを収集した。
論文 参考訳(メタデータ) (2024-06-13T17:05:23Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z) - At Your Fingertips: Extracting Piano Fingering Instructions from Videos [45.643494669796866]
ビデオから指情報を自動的に抽出するAIタスクについて検討する。
ディープラーニングモジュールの組み合わせを用いて,このタスクを高精度に実行する方法を示す。
結果、90本の動画でシステムを実行し、高品質のピアノ指で150Kの音符を入力します。
論文 参考訳(メタデータ) (2023-03-07T09:09:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。