論文の概要: FürElise: Capturing and Physically Synthesizing Hand Motions of Piano Performance
- arxiv url: http://arxiv.org/abs/2410.05791v1
- Date: Tue, 8 Oct 2024 08:21:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 12:49:50.747938
- Title: FürElise: Capturing and Physically Synthesizing Hand Motions of Piano Performance
- Title(参考訳): FürElise:ピアノ演奏の手の動きをキャプチャし、物理的に合成する
- Authors: Ruocheng Wang, Pei Xu, Haochen Shi, Elizabeth Schumann, C. Karen Liu,
- Abstract要約: ピアノ演奏を正確に再現する洗練された手の動きモデルは、キャラクターアニメーション、エンボディAI、バイオメカニクス、VR/ARに幅広い応用がある。
本稿では,153曲のクラシック音楽を演奏する15人のエリートレベルのピアニストによる,約10時間の3D手の動きとオーディオを含む,第1世代の大規模データセットを構築する。
- 参考スコア(独自算出の注目度): 15.909113091360206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Piano playing requires agile, precise, and coordinated hand control that stretches the limits of dexterity. Hand motion models with the sophistication to accurately recreate piano playing have a wide range of applications in character animation, embodied AI, biomechanics, and VR/AR. In this paper, we construct a first-of-its-kind large-scale dataset that contains approximately 10 hours of 3D hand motion and audio from 15 elite-level pianists playing 153 pieces of classical music. To capture natural performances, we designed a markerless setup in which motions are reconstructed from multi-view videos using state-of-the-art pose estimation models. The motion data is further refined via inverse kinematics using the high-resolution MIDI key-pressing data obtained from sensors in a specialized Yamaha Disklavier piano. Leveraging the collected dataset, we developed a pipeline that can synthesize physically-plausible hand motions for musical scores outside of the dataset. Our approach employs a combination of imitation learning and reinforcement learning to obtain policies for physics-based bimanual control involving the interaction between hands and piano keys. To solve the sampling efficiency problem with the large motion dataset, we use a diffusion model to generate natural reference motions, which provide high-level trajectory and fingering (finger order and placement) information. However, the generated reference motion alone does not provide sufficient accuracy for piano performance modeling. We then further augmented the data by using musical similarity to retrieve similar motions from the captured dataset to boost the precision of the RL policy. With the proposed method, our model generates natural, dexterous motions that generalize to music from outside the training dataset.
- Abstract(参考訳): ピアノ演奏には、器用さの限界を延ばすアジャイルで正確で協調した手制御が必要である。
ピアノ演奏を正確に再現する洗練された手の動きモデルは、キャラクターアニメーション、エンボディAI、バイオメカニクス、VR/ARに幅広い応用がある。
本稿では,153曲のクラシック音楽を演奏する15人のエリートレベルのピアニストによる,約10時間の3D手の動きとオーディオを含む,第1世代の大規模データセットを構築する。
自然なパフォーマンスを捉えるために,現状のポーズ推定モデルを用いてマルチビュー映像から動きを再構成するマーカーレス・セットアップを設計した。
特殊なヤマハ・ディクラビエピアノのセンサから得られた高分解能MIDIキー押圧データを用いて、逆キネマティクスにより運動データをさらに洗練する。
収集したデータセットを活用することで,データセット外の楽譜を物理的に証明可能な手の動きを合成できるパイプラインを開発した。
提案手法は模倣学習と強化学習を組み合わせて,手とピアノ鍵の相互作用を含む物理に基づくバイマニュアル制御のポリシーを得る。
大規模な運動データセットによるサンプリング効率の問題を解決するため,拡散モデルを用いて自然参照運動を生成し,高レベルな軌跡と指先情報(指の順序と配置)を提供する。
しかし、生成した参照動作だけではピアノ演奏のモデリングに十分な精度が得られない。
さらに,RLポリシーの精度を高めるために,取得したデータセットから類似した動きを検索するために,音楽的類似性を用いてデータをさらに強化する。
提案手法により,学習データセットの外部から音楽に一般化する自然な,きらめきらかな動きを生成できる。
関連論文リスト
- UniMuMo: Unified Text, Music and Motion Generation [57.72514622935806]
任意のテキスト,音楽,動作データを入力条件として取り込んで,3つのモードすべてにまたがる出力を生成する,統一型マルチモーダルモデルUniMuMoを導入する。
音楽、動き、テキストをトークンベースの表現に変換することで、我々のモデルはエンコーダ・デコーダ・トランスフォーマアーキテクチャを通じてこれらのモダリティをブリッジする。
論文 参考訳(メタデータ) (2024-10-06T16:04:05Z) - RP1M: A Large-Scale Motion Dataset for Piano Playing with Bi-Manual Dexterous Robot Hands [57.64308229980045]
ロボットピアノ100万のデータセットには,100万回以上の軌跡の動作データをバイマニュアルで演奏するロボットピアノが組み込まれている。
指の配置を最適な移動問題として定式化し、大量の未収録曲の自動アノテーションを可能にする。
既存の模倣学習手法のベンチマークでは、RP1Mを活用することにより、最先端のロボットピアノ演奏性能に達することが示されている。
論文 参考訳(メタデータ) (2024-08-20T17:56:52Z) - PianoMotion10M: Dataset and Benchmark for Hand Motion Generation in Piano Performance [15.21347897534943]
ピアノ演奏のための手の動きと指の動きをガイドするピアノハンド動作生成ベンチマークを構築した。
この目的のために,1000万個の手ポーズを持つ鳥眼ビューから116時間のピアノ演奏ビデオからなる注釈付きデータセットPianoMotion10Mを収集した。
論文 参考訳(メタデータ) (2024-06-13T17:05:23Z) - HMP: Hand Motion Priors for Pose and Shape Estimation from Video [52.39020275278984]
我々は,多種多様な高品質の手の動きを特徴とするAMASSデータセットに基づいて,手動に特有な生成動作を開発する。
頑健な動きの統合は、特に隠蔽されたシナリオにおいて、パフォーマンスを著しく向上させる。
HO3DおよびDexYCBデータセットの質的および定量的評価により,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-12-27T22:35:33Z) - BRACE: The Breakdancing Competition Dataset for Dance Motion Synthesis [123.73677487809418]
ダンス・モーション・シンセサイザーにおける一般的な仮定に挑戦する新しいデータセットを提案する。
我々は、アクロバティックな動きと絡み合った姿勢を特徴とするブレイクダンスに焦点を当てている。
BRACEデータセットは、3時間30分以上の濃密な注釈付きポーズを含む。
論文 参考訳(メタデータ) (2022-07-20T18:03:54Z) - AIMusicGuru: Music Assisted Human Pose Correction [8.020211030279686]
生成した音と生成する動きの因果関係を高次に理解する手法を提案する。
音声シグネチャを用いて、正確な人体ポーズ動作モデルを洗練し、予測する。
また,音楽で演奏する3DヴァイオリンのマルチモーダルデータセットMAPdatをオープンソース化した。
論文 参考訳(メタデータ) (2022-03-24T03:16:42Z) - Render In-between: Motion Guided Video Synthesis for Action
Interpolation [53.43607872972194]
本研究では、リアルな人間の動きと外観を生成できる動き誘導型フレームアップサンプリングフレームワークを提案する。
大規模モーションキャプチャーデータセットを活用することにより、フレーム間の非線形骨格運動を推定するために、新しいモーションモデルが訓練される。
私たちのパイプラインでは、低フレームレートのビデオと不自由な人間のモーションデータしか必要としませんが、トレーニングには高フレームレートのビデオは必要ありません。
論文 参考訳(メタデータ) (2021-11-01T15:32:51Z) - Deep Imitation Learning for Bimanual Robotic Manipulation [70.56142804957187]
本稿では,ロボットによるバイマニュアル操作のための深層模倣学習フレームワークを提案する。
中心となる課題は、操作スキルを異なる場所にあるオブジェクトに一般化することである。
i)マルチモーダルダイナミクスを要素運動プリミティブに分解し、(ii)リカレントグラフニューラルネットワークを用いて各プリミティブをパラメータ化して相互作用を捕捉し、(iii)プリミティブを逐次的に構成する高レベルプランナと、プリミティブダイナミクスと逆運動学制御を組み合わせた低レベルコントローラを統合することを提案する。
論文 参考訳(メタデータ) (2020-10-11T01:40:03Z) - Learning Style-Aware Symbolic Music Representations by Adversarial
Autoencoders [9.923470453197657]
我々は,文脈情報を用いた変動型オートエンコーダを組み込むための,フレキシブルで自然な手段として,逆正則化を活用することに注力する。
第1回音楽Adversarial Autoencoder(MusAE)について紹介する。
我々のモデルは、標準変分オートエンコーダに基づく最先端モデルよりも高い再構成精度を有する。
論文 参考訳(メタデータ) (2020-01-15T18:07:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。