論文の概要: Two Web Toolkits for Multimodal Piano Performance Dataset Acquisition and Fingering Annotation
- arxiv url: http://arxiv.org/abs/2509.15222v1
- Date: Thu, 18 Sep 2025 17:59:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.400648
- Title: Two Web Toolkits for Multimodal Piano Performance Dataset Acquisition and Fingering Annotation
- Title(参考訳): マルチモーダルピアノ演奏データセット獲得とフィンガーアノテーションのための2つのWebツールキット
- Authors: Junhyung Park, Yonghyun Kim, Joonhyung Bae, Kirak Kim, Taegyun Kwon, Alexander Lerch, Juhan Nam,
- Abstract要約: 2つのグラフィカルユーザインタフェース(GUI)からなる統合Webツールキットを提案する。
PiaRecは、オーディオ、ビデオ、MIDI、パフォーマンスメタデータの同時取得をサポートする。
ASDFは、視覚データからパフォーマーフィンガーの効率的なアノテーションを可能にする。
- 参考スコア(独自算出の注目度): 56.318475235705954
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Piano performance is a multimodal activity that intrinsically combines physical actions with the acoustic rendition. Despite growing research interest in analyzing the multimodal nature of piano performance, the laborious process of acquiring large-scale multimodal data remains a significant bottleneck, hindering further progress in this field. To overcome this barrier, we present an integrated web toolkit comprising two graphical user interfaces (GUIs): (i) PiaRec, which supports the synchronized acquisition of audio, video, MIDI, and performance metadata. (ii) ASDF, which enables the efficient annotation of performer fingering from the visual data. Collectively, this system can streamline the acquisition of multimodal piano performance datasets.
- Abstract(参考訳): ピアノ演奏は、物理的行動と音響的回帰を本質的に組み合わせたマルチモーダルな活動である。
ピアノ演奏のマルチモーダルな性質を解析することに対する研究の関心が高まっているが、大規模なマルチモーダルデータを取得するという面倒なプロセスは依然として大きなボトルネックであり、この分野のさらなる進歩を妨げている。
この障壁を克服するため、2つのグラフィカルユーザインタフェース(GUI)からなる統合Webツールキットを提案する。
i)PiaRecは、オーディオ、ビデオ、MIDI、パフォーマンスメタデータの同時取得をサポートする。
(ii)視覚データからパフォーマー指の効率的なアノテーションを可能にするASDF。
本システムは,マルチモーダルピアノ演奏データセットの取得を合理化することができる。
関連論文リスト
- PianoVAM: A Multimodal Piano Performance Dataset [56.318475235705954]
PianoVAMは、ビデオ、オーディオ、MIDI、手のランドマーク、指のラベル、リッチメタデータを含む包括的なピアノパフォーマンスデータセットである。
データセットはディクラヴィエピアノを使用して録音され、アマチュアピアニストの日々の練習セッション中にオーディオとMIDIをキャプチャした。
事前訓練されたポーズ推定モデルと半自動指先アノテーションアルゴリズムを用いて,手指のランドマークと指先ラベルを抽出した。
論文 参考訳(メタデータ) (2025-09-10T17:35:58Z) - DEL: Dense Event Localization for Multi-modal Audio-Visual Understanding [13.256830504062332]
DELは、密集したセマンティックアクションローカライゼーションのためのフレームワークである。
DELは、長い未編集ビデオにおいて、きめ細かい時間分解能で複数のアクションを正確に検出し、分類することを目的としている。
論文 参考訳(メタデータ) (2025-06-29T11:50:19Z) - MAGMaR Shared Task System Description: Video Retrieval with OmniEmbed [55.526939500742]
我々はTevatron 2.0ツールキットの強力なマルチモーダル埋め込みモデルであるOmniEmbedを使用して、テキスト、画像、オーディオ、ビデオの統一埋め込みを生成する。
2025年5月20日時点の公募では、MAGMaRのタスクリーダーボードの最高スコアを達成しました。
論文 参考訳(メタデータ) (2025-06-11T05:40:26Z) - Towards Video to Piano Music Generation with Chain-of-Perform Support Benchmarks [6.895278984923356]
Chain-of-Perform (CoP)ベンチマークは、ビデオ誘導ピアノ音楽生成のための、完全にオープンソースでマルチモーダルなベンチマークである。
CoPベンチマークは詳細なマルチモーダルアノテーションを提供し、ビデオコンテンツとピアノオーディオの正確な意味と時間的アライメントを可能にする。
データセットはhttps://github.com/acappemin/Video-to-Audio-and-Pianoで公開されている。
論文 参考訳(メタデータ) (2025-05-26T14:24:19Z) - VIMI: Grounding Video Generation through Multi-modal Instruction [89.90065445082442]
既存のテキスト間拡散モデルは、事前訓練のためにテキストのみのエンコーダにのみ依存する。
検索手法を用いて大規模マルチモーダル・プロンプト・データセットを構築し,テキスト・プロンプトとテキスト・プロンプトのペア化を行う。
マルチモーダル命令を組み込んだ3つのビデオ生成タスクにおいて,第1ステージからモデルを微調整する。
論文 参考訳(メタデータ) (2024-07-08T18:12:49Z) - Multi-view MidiVAE: Fusing Track- and Bar-view Representations for Long
Multi-track Symbolic Music Generation [50.365392018302416]
長い多トラックのシンボリック・ミュージックを効果的にモデル化・生成するVAE手法の先駆者の一つであるMulti-view MidiVAEを提案する。
我々は,ハイブリッドな変分符号化・復号化戦略を用いて,楽器の特徴と調和,および楽曲のグローバルおよびローカルな情報に焦点をあてる。
論文 参考訳(メタデータ) (2024-01-15T08:41:01Z) - Single-Shot and Multi-Shot Feature Learning for Multi-Object Tracking [55.13878429987136]
そこで本研究では,異なる目標に対して,単発と複数発の特徴を共同で学習するための,シンプルで効果的な2段階特徴学習パラダイムを提案する。
提案手法は,DanceTrackデータセットの最先端性能を達成しつつ,MOT17およびMOT20データセットの大幅な改善を実現している。
論文 参考訳(メタデータ) (2023-11-17T08:17:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。