論文の概要: VioPose: Violin Performance 4D Pose Estimation by Hierarchical Audiovisual Inference
- arxiv url: http://arxiv.org/abs/2411.13607v1
- Date: Tue, 19 Nov 2024 20:57:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-22 15:19:25.669950
- Title: VioPose: Violin Performance 4D Pose Estimation by Hierarchical Audiovisual Inference
- Title(参考訳): VioPose:階層的視覚推定によるヴァイオリンの4Dポス推定
- Authors: Seong Jong Yoo, Snehesh Shrestha, Irina Muresanu, Cornelia Fermüller,
- Abstract要約: 現在の最先端のビジュアルポーズ推定アルゴリズムは、正確なモノクロ4Dポーズを生成するのに苦労している。
階層的にダイナミクスを推定する新しいマルチモーダルネットワークであるVioPoseを提案する。
我々のアーキテクチャは、正確なポーズシーケンスを生成し、正確な動き解析を容易にし、SoTAより優れていることを示す。
- 参考スコア(独自算出の注目度): 7.5565058831496055
- License:
- Abstract: Musicians delicately control their bodies to generate music. Sometimes, their motions are too subtle to be captured by the human eye. To analyze how they move to produce the music, we need to estimate precise 4D human pose (3D pose over time). However, current state-of-the-art (SoTA) visual pose estimation algorithms struggle to produce accurate monocular 4D poses because of occlusions, partial views, and human-object interactions. They are limited by the viewing angle, pixel density, and sampling rate of the cameras and fail to estimate fast and subtle movements, such as in the musical effect of vibrato. We leverage the direct causal relationship between the music produced and the human motions creating them to address these challenges. We propose VioPose: a novel multimodal network that hierarchically estimates dynamics. High-level features are cascaded to low-level features and integrated into Bayesian updates. Our architecture is shown to produce accurate pose sequences, facilitating precise motion analysis, and outperforms SoTA. As part of this work, we collected the largest and the most diverse calibrated violin-playing dataset, including video, sound, and 3D motion capture poses. Project page: is available at https://sj-yoo.info/viopose/.
- Abstract(参考訳): ミュージシャンは体を微妙にコントロールして音楽を作ります。
時として、その動きは微妙すぎて人間の目で捉えられないことがある。
音楽の制作方法を分析するためには、正確な4Dのポーズ(3Dのポーズ)を見積もる必要がある。
しかし、現在の SoTA (State-of-the-art) の視覚的ポーズ推定アルゴリズムは、オクルージョン、部分的なビュー、人間と物体の相互作用のために、正確な単眼的な4Dポーズを生成するのに苦労している。
これらはカメラの視角、画素密度、サンプリングレートによって制限されており、ビブラートの音楽効果のような高速で微妙な動きを推定できない。
これらの課題に対処するために、生成した音楽と人の動きとの間の直接的な因果関係を活用する。
階層的にダイナミクスを推定する新しいマルチモーダルネットワークであるVioPoseを提案する。
高レベル機能は低レベル機能にカスケードされ、ベイジアンアップデートに統合される。
我々のアーキテクチャは、正確なポーズシーケンスを生成し、正確な動き解析を容易にし、SoTAより優れていることを示す。
この研究の一環として、私たちは、ビデオ、サウンド、そして3Dモーションキャプチャーのポーズを含む、最大かつ最も多種多様なヴァイオリン演奏データセットを収集しました。
プロジェクトページ: https://sj-yoo.info/viopose/.comで公開されている。
関連論文リスト
- DreamScene4D: Dynamic Multi-Object Scene Generation from Monocular Videos [21.93514516437402]
本稿では,新しいビュー合成によるモノクロ映像から複数の物体の3次元動的シーンを生成するための最初のアプローチであるDreamScene4Dを紹介する。
私たちの重要な洞察は、ビデオシーンを背景とオブジェクトトラックに分解する"分解分解"アプローチです。
DAVIS, Kubric, 自撮りビデオについて, 定量的比較とユーザ嗜好調査を行った。
論文 参考訳(メタデータ) (2024-05-03T17:55:34Z) - DO3D: Self-supervised Learning of Decomposed Object-aware 3D Motion and
Depth from Monocular Videos [76.01906393673897]
本研究では,モノクラービデオから3次元運動と深度を協調的に学習する自己教師手法を提案する。
本システムでは,深度を推定する深度推定モジュールと,エゴモーションと3次元物体の動きを推定する新しい分解対象3次元運動推定モジュールを備える。
我々のモデルは評価されたすべての設定において優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-03-09T12:22:46Z) - Make-It-4D: Synthesizing a Consistent Long-Term Dynamic Scene Video from
a Single Image [59.18564636990079]
本研究では,1枚の画像のみから長期ダイナミック映像を合成する問題について検討する。
既存の方法は、一貫性のない永遠の視点を幻覚させるか、長いカメラの軌跡に苦しむかのいずれかである。
一つの画像から一貫した長期動画像を生成する新しい方法であるMake-It-4Dを提案する。
論文 参考訳(メタデータ) (2023-08-20T12:53:50Z) - BRACE: The Breakdancing Competition Dataset for Dance Motion Synthesis [123.73677487809418]
ダンス・モーション・シンセサイザーにおける一般的な仮定に挑戦する新しいデータセットを提案する。
我々は、アクロバティックな動きと絡み合った姿勢を特徴とするブレイクダンスに焦点を当てている。
BRACEデータセットは、3時間30分以上の濃密な注釈付きポーズを含む。
論文 参考訳(メタデータ) (2022-07-20T18:03:54Z) - AIMusicGuru: Music Assisted Human Pose Correction [8.020211030279686]
生成した音と生成する動きの因果関係を高次に理解する手法を提案する。
音声シグネチャを用いて、正確な人体ポーズ動作モデルを洗練し、予測する。
また,音楽で演奏する3DヴァイオリンのマルチモーダルデータセットMAPdatをオープンソース化した。
論文 参考訳(メタデータ) (2022-03-24T03:16:42Z) - NeuralDiff: Segmenting 3D objects that move in egocentric videos [92.95176458079047]
観測された3次元シーンを静的な背景と動的前景に分解する問題について検討する。
このタスクは、古典的な背景の減算問題を連想させるが、静的でダイナミックなシーンの全ての部分が大きな動きを生じさせるため、非常に難しい。
特に、自我中心のビデオについて検討し、動的コンポーネントを観察・移動するオブジェクトとアクターにさらに分離する。
論文 参考訳(メタデータ) (2021-10-19T12:51:35Z) - Unsupervised 3D Pose Estimation for Hierarchical Dance Video Recognition [13.289339907084424]
階層型ダンスビデオ認識フレームワーク(HDVR)を提案する。
HDVRは2Dポーズシーケンスを推定し、ダンサーを追跡し、同時に対応する3Dポーズと3Dから2Dイメージングパラメータを推定する。
推定した3Dポーズシーケンスから、HDVRは身体部分の動きを抽出し、ダンスジャンルから抽出する。
論文 参考訳(メタデータ) (2021-09-19T16:59:37Z) - Deep 3D Mask Volume for View Synthesis of Dynamic Scenes [49.45028543279115]
120FPSのカスタム10カメラリグでキャプチャしたマルチビュービデオデータセットを提案する。
データセットには、屋外シーンにおけるさまざまな視覚効果と人間の相互作用を示す96の高品質なシーンが含まれている。
我々は,静的カメラで捉えた動的シーンの双眼映像から時間的に安定な視線外挿を可能にする新しいアルゴリズムであるDeep 3D Mask Volumeを開発した。
論文 参考訳(メタデータ) (2021-08-30T17:55:28Z) - Learning Motion Priors for 4D Human Body Capture in 3D Scenes [81.54377747405812]
LEMO: LEMO: LEARING Human Motion priors for 4D human body capture。
提案手法では, 連続して復元されたポーズによって現れるジッタを減少させる新規な動きを事前に導入する。
また, 接触摩擦項と, 物体ごとの自己監督訓練により得られる接触認識運動充填剤を設計した。
パイプラインでは、高品質な4D人体撮影、スムーズな動きの再構築、身体とシーンの相互作用を実演しています。
論文 参考訳(メタデータ) (2021-08-23T20:47:09Z) - Synergetic Reconstruction from 2D Pose and 3D Motion for Wide-Space
Multi-Person Video Motion Capture in the Wild [3.0015034534260665]
マルチカメラの精度と滑らかさを考慮したマーカーレスモーションキャプチャ手法を提案する。
提案手法は,各人物の3Dポーズを予測し,マルチカメラ画像のバウンディングボックスを決定する。
提案手法を,様々なデータセットと実スポーツフィールドを用いて評価した。
論文 参考訳(メタデータ) (2020-01-16T02:14:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。