Fugu-MT 論文翻訳(概要): Unsupervised 3D Pose Estimation for Hierarchical Dance Video Recognition

論文の概要: Unsupervised 3D Pose Estimation for Hierarchical Dance Video Recognition

arxiv url: http://arxiv.org/abs/2109.09166v1
Date: Sun, 19 Sep 2021 16:59:37 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-21 16:27:58.561674
Title: Unsupervised 3D Pose Estimation for Hierarchical Dance Video Recognition
Title（参考訳）: 階層的ダンスビデオ認識のための教師なし3次元ポーズ推定
Authors: Xiaodan Hu, Narendra Ahuja
Abstract要約: 階層型ダンスビデオ認識フレームワーク(HDVR)を提案する。 HDVRは2Dポーズシーケンスを推定し、ダンサーを追跡し、同時に対応する3Dポーズと3Dから2Dイメージングパラメータを推定する。推定した3Dポーズシーケンスから、HDVRは身体部分の動きを抽出し、ダンスジャンルから抽出する。
参考スコア（独自算出の注目度）: 13.289339907084424
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Dance experts often view dance as a hierarchy of information, spanning low-level (raw images, image sequences), mid-levels (human poses and bodypart movements), and high-level (dance genre). We propose a Hierarchical Dance Video Recognition framework (HDVR). HDVR estimates 2D pose sequences, tracks dancers, and then simultaneously estimates corresponding 3D poses and 3D-to-2D imaging parameters, without requiring ground truth for 3D poses. Unlike most methods that work on a single person, our tracking works on multiple dancers, under occlusions. From the estimated 3D pose sequence, HDVR extracts body part movements, and therefrom dance genre. The resulting hierarchical dance representation is explainable to experts. To overcome noise and interframe correspondence ambiguities, we enforce spatial and temporal motion smoothness and photometric continuity over time. We use an LSTM network to extract 3D movement subsequences from which we recognize the dance genre. For experiments, we have identified 154 movement types, of 16 body parts, and assembled a new University of Illinois Dance (UID) Dataset, containing 1143 video clips of 9 genres covering 30 hours, annotated with movement and genre labels. Our experimental results demonstrate that our algorithms outperform the state-of-the-art 3D pose estimation methods, which also enhances our dance recognition performance.
Abstract（参考訳）: ダンスの専門家は、しばしばダンスを情報階層とみなし、低レベル(生画像、画像シーケンス)、中レベル(人間のポーズと体の一部の動き)、高レベル(ダンスジャンル)にまたがる。本稿では,HDVR(Hierarchical Dance Video Recognition framework)を提案する。 HDVRは2Dポーズシーケンスを推定し、ダンサーを追跡し、同時に対応する3Dポーズと3Dから2Dイメージングパラメータを推定する。一人の人間で動くほとんどの方法とは異なり、追跡は複数のダンサーで行われており、排他的だ。推定3dポーズシーケンスから、hdvrは体部の動きを抽出し、ダンスジャンルから抽出する。結果として生じる階層的なダンス表現は専門家に説明できる。雑音とフレーム間対応の曖昧さを克服するために,空間的および時間的動きの平滑さと測光連続性を時間とともに強制する。我々は,lstmネットワークを用いて,ダンスジャンルを認識できる3次元運動列を抽出する。実験では16の身体部分からなる154種類の運動タイプを特定し,30時間を含む9つのジャンルの1143の動画クリップを含む,イリノイ大学ダンス(UID)データセットを作成した。実験の結果,我々のアルゴリズムは最先端の3Dポーズ推定法よりも優れており,ダンス認識性能も向上していることがわかった。

関連論文リスト

X-Dancer: Expressive Music to Human Dance Video Generation [26.544761204917336]
X-Dancerはゼロショット音楽駆動の画像アニメーションパイプラインである。単一の静止画像から、多種多様で長い範囲の人間のダンスビデオを生成する。
論文参考訳（メタデータ） (2025-02-24T18:47:54Z)
DreamDance: Animating Human Images by Enriching 3D Geometry Cues from 2D Poses [57.17501809717155]
本研究では,骨格ポーズシーケンスのみを条件入力として,人間のイメージをアニメーションする新しい手法であるDreamDanceを提案する。私たちの重要な洞察は、人間の画像は自然に複数のレベルの相関を示すということです。我々は5Kの高品質なダンスビデオと詳細なフレームアノテーションを組み合わせたTikTok-Dance5Kデータセットを構築した。
論文参考訳（メタデータ） (2024-11-30T08:42:13Z)
VioPose: Violin Performance 4D Pose Estimation by Hierarchical Audiovisual Inference [7.5565058831496055]
現在の最先端のビジュアルポーズ推定アルゴリズムは、正確なモノクロ4Dポーズを生成するのに苦労している。階層的にダイナミクスを推定する新しいマルチモーダルネットワークであるVioPoseを提案する。我々のアーキテクチャは、正確なポーズシーケンスを生成し、正確な動き解析を容易にし、SoTAより優れていることを示す。
論文参考訳（メタデータ） (2024-11-19T20:57:15Z)
DanceCamAnimator: Keyframe-Based Controllable 3D Dance Camera Synthesis [49.614150163184064]
ダンスカメラの動きは、可変長の連続的なシーケンスと、複数のカメラの切り替えをシミュレートする突然の変化の両方を含む。本稿では,この課題をアニメーター検出,合成,ツイーン関数予測という3段階のプロセスとして定式化し,撮影知識を統合することを提案する。この定式化に続いて、人間のアニメーション手順を模倣し、可変長の強力な制御性を示す新しいエンドツーエンドのダンスカメラフレームワーク textbfDanceCamAnimator を設計する。
論文参考訳（メタデータ） (2024-09-23T11:20:44Z)
EventEgo3D: 3D Human Motion Capture from Egocentric Event Streams [59.77837807004765]
本稿では,魚眼レンズを用いた一眼一眼レフカメラによる3次元モーションキャプチャーという新たな課題を紹介する。イベントストリームは、時間分解能が高く、高速な人間の動作下での3次元モーションキャプチャーと、急速に変化する照明のための信頼性の高い手がかりを提供する。我々のEE3Dは、リアルタイム3Dポーズ更新レートを140Hzでサポートしながら、既存のソリューションと比較して堅牢性と優れた3D精度を示す。
論文参考訳（メタデータ） (2024-04-12T17:59:47Z)
DanceCamera3D: 3D Camera Movement Synthesis with Music and Dance [50.01162760878841]
DCMは、カメラの動きとダンスモーションと音楽オーディオを組み合わせた、新しいマルチモーダルな3Dデータセットである。このデータセットは、アニメコミュニティからのペアダンスカメラ音楽データの108のダンスシーケンス(3.2時間)を含む。本研究では,新しいボディアテンション損失と条件分離戦略を組み込んだトランスフォーマーに基づく拡散モデルであるDanceCamera3Dを提案する。
論文参考訳（メタデータ） (2024-03-20T15:24:57Z)
TM2D: Bimodality Driven 3D Dance Generation via Music-Text Integration [75.37311932218773]
テキストと音楽の両方を同時に組み込んだ3Dダンス運動を生成するための新しいタスクを提案する。本手法は,テキストと音楽の両方に調和した現実的かつ一貫性のあるダンスの動きを生成できると同時に,2つの単一モーダルと同等の性能を維持することができる。
論文参考訳（メタデータ） (2023-04-05T12:58:33Z)
BRACE: The Breakdancing Competition Dataset for Dance Motion Synthesis [123.73677487809418]
ダンス・モーション・シンセサイザーにおける一般的な仮定に挑戦する新しいデータセットを提案する。我々は、アクロバティックな動きと絡み合った姿勢を特徴とするブレイクダンスに焦点を当てている。 BRACEデータセットは、3時間30分以上の濃密な注釈付きポーズを含む。
論文参考訳（メタデータ） (2022-07-20T18:03:54Z)
Bailando: 3D Dance Generation by Actor-Critic GPT with Choreographic Memory [92.81383016482813]
そこで我々は3Dキャラクターを1曲の楽曲に追従して踊るための新しい音楽間距離フレームワークBailandoを提案する。本稿では,音楽に忠実な流麗なダンスにユニットを構成するアクタ批判型生成事前学習変換器(GPT)を紹介する。提案するフレームワークは,定性的かつ定量的に最先端の性能を実現する。
論文参考訳（メタデータ） (2022-03-24T13:06:43Z)
DanceFormer: Music Conditioned 3D Dance Generation with Parametric Motion Transformer [23.51701359698245]
本稿では、2段階のプロセス, ie, キーポーズ生成, そしてパラメトリックな動き曲線の予測によってそれを再構成する。本稿では,経験的アニメーターによって正確にラベル付けされた大規模な音楽条件付き3DダンスデータセットPhantomDanceを提案する。実験により、提案手法は既存のデータセットで訓練されても、流動的で、演奏的で、音楽にマッチした3Dダンスを生成できることが示されている。
論文参考訳（メタデータ） (2021-03-18T12:17:38Z)
Learn to Dance with AIST++: Music Conditioned 3D Dance Generation [28.623222697548456]
音楽に基づく3Dダンス生成のためのトランスフォーマーに基づく学習フレームワークを提案する。また、AISTのマルチビューダンスビデオから再構成した、AIST++と呼ばれる3Dモーションと音楽のペア化データセットを提案する。
論文参考訳（メタデータ） (2021-01-21T18:59:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。