論文の概要: Towards Video to Piano Music Generation with Chain-of-Perform Support Benchmarks
- arxiv url: http://arxiv.org/abs/2505.20038v1
- Date: Mon, 26 May 2025 14:24:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.507687
- Title: Towards Video to Piano Music Generation with Chain-of-Perform Support Benchmarks
- Title(参考訳): チェイン・オブ・パフォーマンス支援ベンチマークによるピアノ音楽生成に向けて
- Authors: Chang Liu, Haomin Zhang, Shiyu Xia, Zihao Chen, Chaofan Ding, Xin Yue, Huizhe Chen, Xinhan Di,
- Abstract要約: Chain-of-Perform (CoP)ベンチマークは、ビデオ誘導ピアノ音楽生成のための、完全にオープンソースでマルチモーダルなベンチマークである。
CoPベンチマークは詳細なマルチモーダルアノテーションを提供し、ビデオコンテンツとピアノオーディオの正確な意味と時間的アライメントを可能にする。
データセットはhttps://github.com/acappemin/Video-to-Audio-and-Pianoで公開されている。
- 参考スコア(独自算出の注目度): 6.895278984923356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating high-quality piano audio from video requires precise synchronization between visual cues and musical output, ensuring accurate semantic and temporal alignment.However, existing evaluation datasets do not fully capture the intricate synchronization required for piano music generation. A comprehensive benchmark is essential for two primary reasons: (1) existing metrics fail to reflect the complexity of video-to-piano music interactions, and (2) a dedicated benchmark dataset can provide valuable insights to accelerate progress in high-quality piano music generation. To address these challenges, we introduce the CoP Benchmark Dataset-a fully open-sourced, multimodal benchmark designed specifically for video-guided piano music generation. The proposed Chain-of-Perform (CoP) benchmark offers several compelling features: (1) detailed multimodal annotations, enabling precise semantic and temporal alignment between video content and piano audio via step-by-step Chain-of-Perform guidance; (2) a versatile evaluation framework for rigorous assessment of both general-purpose and specialized video-to-piano generation tasks; and (3) full open-sourcing of the dataset, annotations, and evaluation protocols. The dataset is publicly available at https://github.com/acappemin/Video-to-Audio-and-Piano, with a continuously updated leaderboard to promote ongoing research in this domain.
- Abstract(参考訳): ビデオから高品質なピアノオーディオを生成するには、視覚的手がかりと音楽的出力の正確な同期が必要であり、正確な意味と時間的アライメントを確保する必要があるが、既存の評価データセットは、ピアノ音楽生成に必要な複雑な同期を十分に捉えていない。
総合的なベンチマークは,(1)既存の測定値がビデオとピアノ間の音楽相互作用の複雑さを反映できないこと,(2)専用のベンチマークデータセットが高品質なピアノ音楽生成の進展を加速するための貴重な洞察を与えてくれること,の2つの主な理由において不可欠である。
これらの課題に対処するために,ビデオ誘導ピアノ音楽生成用に設計された,完全にオープンソースでマルチモーダルなベンチマークであるCoP Benchmark Datasetを紹介する。
提案したChain-of-Perform(CoP)ベンチマークは,(1)ステップバイステップのChain-of-Performガイダンスによる,映像コンテンツとピアノオーディオの正確な意味的・時間的アライメントを可能にする,詳細なマルチモーダルアノテーション,(2)汎用および特殊ビデオ・ピアノ生成タスクの厳密な評価のための汎用的評価フレームワーク,(3)データセット,アノテーション,評価プロトコルの完全なオープンソース化など,いくつかの魅力的な機能を備えている。
データセットはhttps://github.com/acappemin/Video-to-Audio-and-Pianoで公開されている。
関連論文リスト
- End-to-End Real-World Polyphonic Piano Audio-to-Score Transcription with Hierarchical Decoding [4.604877755214193]
既存のピアノA2Sシステムは、合成データのみで訓練され、評価されている。
楽譜の階層構造に整合した階層デコーダを用いたシーケンス・ツー・シーケンス(Seq2Seq)モデルを提案する。
本研究では,合成音声上での表現的パフォーマンスレンダリングシステムを用いてモデルを事前学習する2段階学習手法を提案し,続いて人間の演奏記録を用いてモデルを微調整する。
論文 参考訳(メタデータ) (2024-05-22T10:52:04Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z) - TAPIR: Tracking Any Point with per-frame Initialization and temporal
Refinement [64.11385310305612]
本稿では,ビデオシーケンスを通して任意の物理面上の問合せ点を効果的に追跡する,TAP(Tracking Any Point)の新しいモデルを提案する。
提案手法では,(1)他のフレームの問合せ点に対する適切な候補点マッチングを独立に特定するマッチング段階と,(2)局所的相関に基づいてトラジェクトリと問合せの両方を更新する改良段階の2段階を用いる。
結果として得られたモデルは、DAVISにおける平均約20%の絶対平均ジャカード(AJ)改善によって示されるように、TAP-Vidベンチマークにおける大きなマージンで、すべてのベースライン手法を上回ります。
論文 参考訳(メタデータ) (2023-06-14T17:07:51Z) - Long-Term Rhythmic Video Soundtracker [37.082768654951465]
我々は、長期条件波形を合成する新しいフレームワーク、LORIS(Long-Term Rhythmic Video Soundtracker)を提案する。
モデルの適用性をダンスからフロアエクササイズやフィギュアスケートといった複数のスポーツシナリオに拡張する。
我々のモデルは、最先端の音楽的品質とリズム対応を備えた長期的なサウンドトラックを生成する。
論文 参考訳(メタデータ) (2023-05-02T10:58:29Z) - Video Background Music Generation: Dataset, Method and Evaluation [31.15901120245794]
本稿では,ビデオ背景音楽生成のためのデータセット,ベンチマークモデル,評価指標を含む完全なレシピを提案する。
様々な音楽アノテーションを備えたビデオおよびシンボリック音楽データセットであるSymMVについて述べる。
また,V-MusProdというビデオバックグラウンド音楽生成フレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-21T08:39:48Z) - Lets Play Music: Audio-driven Performance Video Generation [58.77609661515749]
オーディオ駆動型パーパフォーマンスビデオ生成(APVG)という新しいタスクを提案する。
APVGは、特定の音楽オーディオクリップでガイドされた特定の楽器を演奏する人のビデオを合成することを目的としている。
論文 参考訳(メタデータ) (2020-11-05T03:13:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。