論文の概要: Holistic-Motion2D: Scalable Whole-body Human Motion Generation in 2D Space
- arxiv url: http://arxiv.org/abs/2406.11253v1
- Date: Mon, 17 Jun 2024 06:31:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 18:04:29.221332
- Title: Holistic-Motion2D: Scalable Whole-body Human Motion Generation in 2D Space
- Title(参考訳): ホロスティックモーション2D:2次元空間におけるスケーラブルな全身運動生成
- Authors: Yuan Wang, Zhao Wang, Junhao Gong, Di Huang, Tong He, Wanli Ouyang, Jile Jiao, Xuetao Feng, Qi Dou, Shixiang Tang, Dan Xu,
- Abstract要約: 2次元体全体の動き生成のための総合的かつ大規模ベンチマークであるtextbfHolistic-Motion2D$を提示する。
また、下流アプリケーションにおける2Dモーションの有用性と3Dモーションへのリフトの可能性を強調した。
- 参考スコア(独自算出の注目度): 78.95579123031733
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce a novel path to $\textit{general}$ human motion generation by focusing on 2D space. Traditional methods have primarily generated human motions in 3D, which, while detailed and realistic, are often limited by the scope of available 3D motion data in terms of both the size and the diversity. To address these limitations, we exploit extensive availability of 2D motion data. We present $\textbf{Holistic-Motion2D}$, the first comprehensive and large-scale benchmark for 2D whole-body motion generation, which includes over 1M in-the-wild motion sequences, each paired with high-quality whole-body/partial pose annotations and textual descriptions. Notably, Holistic-Motion2D is ten times larger than the previously largest 3D motion dataset. We also introduce a baseline method, featuring innovative $\textit{whole-body part-aware attention}$ and $\textit{confidence-aware modeling}$ techniques, tailored for 2D $\underline{\text T}$ext-driv$\underline{\text{EN}}$ whole-bo$\underline{\text D}$y motion gen$\underline{\text{ER}}$ation, namely $\textbf{Tender}$. Extensive experiments demonstrate the effectiveness of $\textbf{Holistic-Motion2D}$ and $\textbf{Tender}$ in generating expressive, diverse, and realistic human motions. We also highlight the utility of 2D motion for various downstream applications and its potential for lifting to 3D motion. The page link is: https://holistic-motion2d.github.io.
- Abstract(参考訳): 本稿では,2次元空間に焦点をあてて,$\textit{ general}$ human motion generationに新たな経路を導入する。
従来の方法では主に3Dで人間の動きを生成しており、細部と現実性はあるものの、サイズと多様性の両面で利用可能な3Dモーションデータの範囲によって制限されることが多い。
これらの制約に対処するため、我々は2次元のモーションデータを広範囲に活用する。
我々は,高品質な全身/部分的なポーズアノテーションとテキスト記述とを組み合わせ,100万以上の移動シーケンスを含む2次元体動生成のための,最初の包括的かつ大規模なベンチマークである$\textbf{Holistic-Motion2D}$を提示する。
特に、Holistic-Motion2Dは、これまで最大の3Dモーションデータセットの10倍の大きさである。
また、革新的な$\textit{whole-body part-aware attention}$と$\textit{confidence-aware modeling}$ technique, tailored for 2D $\underline{\text T}$ext-driv$\underline{\text{EN}}$ whole-bo$\underline{\text D}$y motion gen$\underline{\text{ER}}$ation, $\textbf{Tender}$を特徴付けるベースラインメソッドを導入します。
大規模な実験は、表現的で多様で現実的な人間の動きを生成するために、$\textbf{Holistic-Motion2D}$と$\textbf{Tender}$の有効性を実証している。
また、下流アプリケーションにおける2Dモーションの有用性と3Dモーションへのリフトの可能性を強調した。
ページリンクは以下の通り。
関連論文リスト
- Director3D: Real-world Camera Trajectory and 3D Scene Generation from Text [61.9973218744157]
実世界の3Dシーンと適応カメラトラジェクトリの両方を生成するように設計された,堅牢なオープンワールドテキスト・ツー・3D生成フレームワークであるDirector3Dを紹介する。
Director3Dは既存の手法よりも優れており、実世界の3D生成において優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-06-25T14:42:51Z) - SpatialTracker: Tracking Any 2D Pixels in 3D Space [71.58016288648447]
本稿では,画像投影による問題点を軽減するために,3次元空間における点軌道の推定を提案する。
この手法はSpatialTrackerと呼ばれ、2Dピクセルをモノクロ深度推定器を用いて3Dにリフトする。
3Dでのトラッキングにより、ピクセルを異なる剛性部分にクラスタ化する剛性埋め込みを同時に学習しながら、ARAP(as-rigid-as-possible)制約を活用することができます。
論文 参考訳(メタデータ) (2024-04-05T17:59:25Z) - Lift3D: Zero-Shot Lifting of Any 2D Vision Model to 3D [95.14469865815768]
2Dビジョンモデルは、大規模な2D画像データセットによって実現されるセマンティックセグメンテーション、スタイル転送、シーン編集に使用できる。
しかし、シーン編集のような単一の2Dビジョン演算子を3Dに拡張するには、通常、そのタスクに特化した非常に創造的な方法が必要である。
本稿では,いくつかの視覚モデルによって生成された特徴空間の未知のビューを予測するためのLift3Dを提案する。
問題のあるタスクに特化した最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2024-03-27T18:13:16Z) - Realistic Human Motion Generation with Cross-Diffusion Models [34.67728249559236]
クロスヒューマンモーション拡散モデル(クロスディフ)
拡散モデルのトレーニングでは,共有変圧器ネットワークを用いて3次元情報と2次元情報を統合する。
CrossDiffは、両方の表現の強みを効果的に組み合わせて、より現実的なモーションシーケンスを生成する。
論文 参考訳(メタデータ) (2023-12-18T07:44:40Z) - RenderOcc: Vision-Centric 3D Occupancy Prediction with 2D Rendering
Supervision [36.15913507034939]
RenderOccは2次元ラベルのみを用いて3次元占有モデルを訓練するための新しいパラダイムである。
具体的には、マルチビュー画像からNeRFスタイルの3Dボリューム表現を抽出する。
ボリュームレンダリング技術を用いて2次元レンダリングを確立することにより,2次元セマンティクスや深度ラベルから直接の3D監視を可能にする。
論文 参考訳(メタデータ) (2023-09-18T06:08:15Z) - SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving [98.74706005223685]
3Dシーン理解は、視覚に基づく自動運転において重要な役割を果たす。
マルチカメラ画像を用いたSurroundOcc法を提案する。
論文 参考訳(メタデータ) (2023-03-16T17:59:08Z) - Action2video: Generating Videos of Human 3D Actions [31.665831044217363]
我々は、所定のアクションカテゴリから多様で自然な人間の動きのビデオを生成するという、興味深いが挑戦的な課題に取り組むことを目的としている。
重要な問題は、視覚的な外観で現実的な複数の異なる動き列を合成する能力にある。
Action2motionallyは、所定のアクションカテゴリのもっともらしい3Dポーズシーケンスを生成し、モーション2ビデオによって処理され、レンダリングされ、2Dビデオを形成する。
論文 参考訳(メタデータ) (2021-11-12T20:20:37Z) - M3D-VTON: A Monocular-to-3D Virtual Try-On Network [62.77413639627565]
既存の3D仮想試行法は主に注釈付き3D人体形状と衣服テンプレートに依存している。
本稿では,2次元と3次元の両方のアプローチの利点を生かした,モノクロから3次元仮想トライオンネットワーク(M3D-VTON)を提案する。
論文 参考訳(メタデータ) (2021-08-11T10:05:17Z) - Deep Monocular 3D Human Pose Estimation via Cascaded Dimension-Lifting [10.336146336350811]
1枚の画像からの3次元ポーズ推定は、深さの曖昧さのために難しい問題である。
従来の手法の1つのタイプは、外部の2Dポーズ検出器に頼って得られた2D関節を3D空間に持ち上げる。
文脈情報を利用しながら、3D空間で直接出力する,新たなエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-08T05:44:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。