論文の概要: Unsupervised 3D Pose Estimation for Hierarchical Dance Video Recognition
- arxiv url: http://arxiv.org/abs/2109.09166v1
- Date: Sun, 19 Sep 2021 16:59:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-21 16:27:58.561674
- Title: Unsupervised 3D Pose Estimation for Hierarchical Dance Video Recognition
- Title(参考訳): 階層的ダンスビデオ認識のための教師なし3次元ポーズ推定
- Authors: Xiaodan Hu, Narendra Ahuja
- Abstract要約: 階層型ダンスビデオ認識フレームワーク(HDVR)を提案する。
HDVRは2Dポーズシーケンスを推定し、ダンサーを追跡し、同時に対応する3Dポーズと3Dから2Dイメージングパラメータを推定する。
推定した3Dポーズシーケンスから、HDVRは身体部分の動きを抽出し、ダンスジャンルから抽出する。
- 参考スコア(独自算出の注目度): 13.289339907084424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dance experts often view dance as a hierarchy of information, spanning
low-level (raw images, image sequences), mid-levels (human poses and bodypart
movements), and high-level (dance genre). We propose a Hierarchical Dance Video
Recognition framework (HDVR). HDVR estimates 2D pose sequences, tracks dancers,
and then simultaneously estimates corresponding 3D poses and 3D-to-2D imaging
parameters, without requiring ground truth for 3D poses. Unlike most methods
that work on a single person, our tracking works on multiple dancers, under
occlusions. From the estimated 3D pose sequence, HDVR extracts body part
movements, and therefrom dance genre. The resulting hierarchical dance
representation is explainable to experts. To overcome noise and interframe
correspondence ambiguities, we enforce spatial and temporal motion smoothness
and photometric continuity over time. We use an LSTM network to extract 3D
movement subsequences from which we recognize the dance genre. For experiments,
we have identified 154 movement types, of 16 body parts, and assembled a new
University of Illinois Dance (UID) Dataset, containing 1143 video clips of 9
genres covering 30 hours, annotated with movement and genre labels. Our
experimental results demonstrate that our algorithms outperform the
state-of-the-art 3D pose estimation methods, which also enhances our dance
recognition performance.
- Abstract(参考訳): ダンスの専門家は、しばしばダンスを情報階層とみなし、低レベル(生画像、画像シーケンス)、中レベル(人間のポーズと体の一部の動き)、高レベル(ダンスジャンル)にまたがる。
本稿では,HDVR(Hierarchical Dance Video Recognition framework)を提案する。
HDVRは2Dポーズシーケンスを推定し、ダンサーを追跡し、同時に対応する3Dポーズと3Dから2Dイメージングパラメータを推定する。
一人の人間で動くほとんどの方法とは異なり、追跡は複数のダンサーで行われており、排他的だ。
推定3dポーズシーケンスから、hdvrは体部の動きを抽出し、ダンスジャンルから抽出する。
結果として生じる階層的なダンス表現は専門家に説明できる。
雑音とフレーム間対応の曖昧さを克服するために,空間的および時間的動きの平滑さと測光連続性を時間とともに強制する。
我々は,lstmネットワークを用いて,ダンスジャンルを認識できる3次元運動列を抽出する。
実験では16の身体部分からなる154種類の運動タイプを特定し,30時間を含む9つのジャンルの1143の動画クリップを含む,イリノイ大学ダンス(UID)データセットを作成した。
実験の結果,我々のアルゴリズムは最先端の3Dポーズ推定法よりも優れており,ダンス認識性能も向上していることがわかった。
関連論文リスト
- Survey of 3D Human Body Pose and Shape Estimation Methods for
Contemporary Dance Applications [0.6144680854063939]
現代舞踊と芸能の3次元体型とポーズ推定法を調査・比較した。
PHALPのようなマルチフレーム手法は、ダンサーが現代舞踊を踊っている場合のポーズ推定において、シングルフレーム法よりも優れた結果が得られることを示した。
論文 参考訳(メタデータ) (2024-01-04T17:51:44Z) - Explore 3D Dance Generation via Reward Model from Automatically-Ranked
Demonstrations [18.56485266484622]
本稿では,既存の音楽条件の3Dダンス生成モデルにおいて,探索的3Dダンス生成フレームワークであるE3D2を提案する。
E3D2フレームワークには、自動的にランク付けされたダンスのデモンストレーションからトレーニングされた報酬モデルが含まれており、強化学習プロセスのガイドとなる。
論文 参考訳(メタデータ) (2023-12-18T18:45:38Z) - TM2D: Bimodality Driven 3D Dance Generation via Music-Text Integration [75.37311932218773]
テキストと音楽の両方を同時に組み込んだ3Dダンス運動を生成するための新しいタスクを提案する。
本手法は,テキストと音楽の両方に調和した現実的かつ一貫性のあるダンスの動きを生成できると同時に,2つの単一モーダルと同等の性能を維持することができる。
論文 参考訳(メタデータ) (2023-04-05T12:58:33Z) - BRACE: The Breakdancing Competition Dataset for Dance Motion Synthesis [123.73677487809418]
ダンス・モーション・シンセサイザーにおける一般的な仮定に挑戦する新しいデータセットを提案する。
我々は、アクロバティックな動きと絡み合った姿勢を特徴とするブレイクダンスに焦点を当てている。
BRACEデータセットは、3時間30分以上の濃密な注釈付きポーズを含む。
論文 参考訳(メタデータ) (2022-07-20T18:03:54Z) - Gait Recognition in the Wild with Dense 3D Representations and A
Benchmark [86.68648536257588]
既存の歩行認識の研究は、制約されたシーンにおける人間の体のシルエットや骨格のような2D表現によって支配されている。
本稿では,野生における歩行認識のための高密度な3次元表現の探索を目的とする。
大規模な3D表現に基づく歩行認識データセットGait3Dを構築した。
論文 参考訳(メタデータ) (2022-04-06T03:54:06Z) - Bailando: 3D Dance Generation by Actor-Critic GPT with Choreographic
Memory [92.81383016482813]
そこで我々は3Dキャラクターを1曲の楽曲に追従して踊るための新しい音楽間距離フレームワークBailandoを提案する。
本稿では,音楽に忠実な流麗なダンスにユニットを構成するアクタ批判型生成事前学習変換器(GPT)を紹介する。
提案するフレームワークは,定性的かつ定量的に最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-24T13:06:43Z) - DanceFormer: Music Conditioned 3D Dance Generation with Parametric
Motion Transformer [23.51701359698245]
本稿では、2段階のプロセス, ie, キーポーズ生成, そしてパラメトリックな動き曲線の予測によってそれを再構成する。
本稿では,経験的アニメーターによって正確にラベル付けされた大規模な音楽条件付き3DダンスデータセットPhantomDanceを提案する。
実験により、提案手法は既存のデータセットで訓練されても、流動的で、演奏的で、音楽にマッチした3Dダンスを生成できることが示されている。
論文 参考訳(メタデータ) (2021-03-18T12:17:38Z) - Learn to Dance with AIST++: Music Conditioned 3D Dance Generation [28.623222697548456]
音楽に基づく3Dダンス生成のためのトランスフォーマーに基づく学習フレームワークを提案する。
また、AISTのマルチビューダンスビデオから再構成した、AIST++と呼ばれる3Dモーションと音楽のペア化データセットを提案する。
論文 参考訳(メタデータ) (2021-01-21T18:59:22Z) - Learning to Generate Diverse Dance Motions with Transformer [67.43270523386185]
ダンス・モーション・シンセサイザーのための完全なシステムを提案する。
大規模なダンスモーションデータセットはYouTubeビデオから作成される。
新たな2ストリームモーショントランス生成モデルでは、高い柔軟性で動作シーケンスを生成することができる。
論文 参考訳(メタデータ) (2020-08-18T22:29:40Z) - Towards Generalization of 3D Human Pose Estimation In The Wild [73.19542580408971]
3DBodyTex.Poseは、3Dの人間のポーズ推定のタスクに対処するデータセットである。
3DBodyTex.Poseは、さまざまな衣服やポーズで405種類の実際の被写体を含む高品質でリッチなデータを提供する。
論文 参考訳(メタデータ) (2020-04-21T13:31:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。