論文の概要: VioPose: Violin Performance 4D Pose Estimation by Hierarchical Audiovisual Inference
- arxiv url: http://arxiv.org/abs/2411.13607v1
- Date: Tue, 19 Nov 2024 20:57:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-22 15:19:25.669950
- Title: VioPose: Violin Performance 4D Pose Estimation by Hierarchical Audiovisual Inference
- Title(参考訳): VioPose:階層的視覚推定によるヴァイオリンの4Dポス推定
- Authors: Seong Jong Yoo, Snehesh Shrestha, Irina Muresanu, Cornelia Fermüller,
- Abstract要約: 現在の最先端のビジュアルポーズ推定アルゴリズムは、正確なモノクロ4Dポーズを生成するのに苦労している。
階層的にダイナミクスを推定する新しいマルチモーダルネットワークであるVioPoseを提案する。
我々のアーキテクチャは、正確なポーズシーケンスを生成し、正確な動き解析を容易にし、SoTAより優れていることを示す。
- 参考スコア(独自算出の注目度): 7.5565058831496055
- License:
- Abstract: Musicians delicately control their bodies to generate music. Sometimes, their motions are too subtle to be captured by the human eye. To analyze how they move to produce the music, we need to estimate precise 4D human pose (3D pose over time). However, current state-of-the-art (SoTA) visual pose estimation algorithms struggle to produce accurate monocular 4D poses because of occlusions, partial views, and human-object interactions. They are limited by the viewing angle, pixel density, and sampling rate of the cameras and fail to estimate fast and subtle movements, such as in the musical effect of vibrato. We leverage the direct causal relationship between the music produced and the human motions creating them to address these challenges. We propose VioPose: a novel multimodal network that hierarchically estimates dynamics. High-level features are cascaded to low-level features and integrated into Bayesian updates. Our architecture is shown to produce accurate pose sequences, facilitating precise motion analysis, and outperforms SoTA. As part of this work, we collected the largest and the most diverse calibrated violin-playing dataset, including video, sound, and 3D motion capture poses. Project page: is available at https://sj-yoo.info/viopose/.
- Abstract(参考訳): ミュージシャンは体を微妙にコントロールして音楽を作ります。
時として、その動きは微妙すぎて人間の目で捉えられないことがある。
音楽の制作方法を分析するためには、正確な4Dのポーズ(3Dのポーズ)を見積もる必要がある。
しかし、現在の SoTA (State-of-the-art) の視覚的ポーズ推定アルゴリズムは、オクルージョン、部分的なビュー、人間と物体の相互作用のために、正確な単眼的な4Dポーズを生成するのに苦労している。
これらはカメラの視角、画素密度、サンプリングレートによって制限されており、ビブラートの音楽効果のような高速で微妙な動きを推定できない。
これらの課題に対処するために、生成した音楽と人の動きとの間の直接的な因果関係を活用する。
階層的にダイナミクスを推定する新しいマルチモーダルネットワークであるVioPoseを提案する。
高レベル機能は低レベル機能にカスケードされ、ベイジアンアップデートに統合される。
我々のアーキテクチャは、正確なポーズシーケンスを生成し、正確な動き解析を容易にし、SoTAより優れていることを示す。
この研究の一環として、私たちは、ビデオ、サウンド、そして3Dモーションキャプチャーのポーズを含む、最大かつ最も多種多様なヴァイオリン演奏データセットを収集しました。
プロジェクトページ: https://sj-yoo.info/viopose/.comで公開されている。
関連論文リスト
- DreamScene4D: Dynamic Multi-Object Scene Generation from Monocular Videos [21.93514516437402]
本稿では,新しいビュー合成によるモノクロ映像から複数の物体の3次元動的シーンを生成するための最初のアプローチであるDreamScene4Dを紹介する。
私たちの重要な洞察は、ビデオシーンを背景とオブジェクトトラックに分解する"分解分解"アプローチです。
DAVIS, Kubric, 自撮りビデオについて, 定量的比較とユーザ嗜好調査を行った。
論文 参考訳(メタデータ) (2024-05-03T17:55:34Z) - DanceCamera3D: 3D Camera Movement Synthesis with Music and Dance [50.01162760878841]
DCMは、カメラの動きとダンスモーションと音楽オーディオを組み合わせた、新しいマルチモーダルな3Dデータセットである。
このデータセットは、アニメコミュニティからのペアダンスカメラ音楽データの108のダンスシーケンス(3.2時間)を含む。
本研究では,新しいボディアテンション損失と条件分離戦略を組み込んだトランスフォーマーに基づく拡散モデルであるDanceCamera3Dを提案する。
論文 参考訳(メタデータ) (2024-03-20T15:24:57Z) - DO3D: Self-supervised Learning of Decomposed Object-aware 3D Motion and
Depth from Monocular Videos [76.01906393673897]
本研究では,モノクラービデオから3次元運動と深度を協調的に学習する自己教師手法を提案する。
本システムでは,深度を推定する深度推定モジュールと,エゴモーションと3次元物体の動きを推定する新しい分解対象3次元運動推定モジュールを備える。
我々のモデルは評価されたすべての設定において優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-03-09T12:22:46Z) - Make-It-4D: Synthesizing a Consistent Long-Term Dynamic Scene Video from
a Single Image [59.18564636990079]
本研究では,1枚の画像のみから長期ダイナミック映像を合成する問題について検討する。
既存の方法は、一貫性のない永遠の視点を幻覚させるか、長いカメラの軌跡に苦しむかのいずれかである。
一つの画像から一貫した長期動画像を生成する新しい方法であるMake-It-4Dを提案する。
論文 参考訳(メタデータ) (2023-08-20T12:53:50Z) - BRACE: The Breakdancing Competition Dataset for Dance Motion Synthesis [123.73677487809418]
ダンス・モーション・シンセサイザーにおける一般的な仮定に挑戦する新しいデータセットを提案する。
我々は、アクロバティックな動きと絡み合った姿勢を特徴とするブレイクダンスに焦点を当てている。
BRACEデータセットは、3時間30分以上の濃密な注釈付きポーズを含む。
論文 参考訳(メタデータ) (2022-07-20T18:03:54Z) - 3D Moments from Near-Duplicate Photos [67.15199743223332]
3D Momentsは、新しい計算写真効果だ。
1枚目から2枚目までのシーンの動きを円滑に補間するビデオを作成する。
本システムは,モーションパララックスとシーンダイナミックスを併用したフォトリアリスティックな時空ビデオを生成する。
論文 参考訳(メタデータ) (2022-05-12T17:56:18Z) - AIMusicGuru: Music Assisted Human Pose Correction [8.020211030279686]
生成した音と生成する動きの因果関係を高次に理解する手法を提案する。
音声シグネチャを用いて、正確な人体ポーズ動作モデルを洗練し、予測する。
また,音楽で演奏する3DヴァイオリンのマルチモーダルデータセットMAPdatをオープンソース化した。
論文 参考訳(メタデータ) (2022-03-24T03:16:42Z) - Unsupervised 3D Pose Estimation for Hierarchical Dance Video Recognition [13.289339907084424]
階層型ダンスビデオ認識フレームワーク(HDVR)を提案する。
HDVRは2Dポーズシーケンスを推定し、ダンサーを追跡し、同時に対応する3Dポーズと3Dから2Dイメージングパラメータを推定する。
推定した3Dポーズシーケンスから、HDVRは身体部分の動きを抽出し、ダンスジャンルから抽出する。
論文 参考訳(メタデータ) (2021-09-19T16:59:37Z) - Learning Motion Priors for 4D Human Body Capture in 3D Scenes [81.54377747405812]
LEMO: LEMO: LEARING Human Motion priors for 4D human body capture。
提案手法では, 連続して復元されたポーズによって現れるジッタを減少させる新規な動きを事前に導入する。
また, 接触摩擦項と, 物体ごとの自己監督訓練により得られる接触認識運動充填剤を設計した。
パイプラインでは、高品質な4D人体撮影、スムーズな動きの再構築、身体とシーンの相互作用を実演しています。
論文 参考訳(メタデータ) (2021-08-23T20:47:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。