論文の概要: UnrealPose: Leveraging Game Engine Kinematics for Large-Scale Synthetic Human Pose Data
- arxiv url: http://arxiv.org/abs/2601.00991v1
- Date: Fri, 02 Jan 2026 21:44:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:21.926112
- Title: UnrealPose: Leveraging Game Engine Kinematics for Large-Scale Synthetic Human Pose Data
- Title(参考訳): UnrealPose: ゲームエンジンのキネマティクスを活用
- Authors: Joshua Kawaguchi, Saad Manzur, Emily Gao Wang, Maitreyi Sinha, Bryan Vela, Yunxi Wang, Brandon Vela, Wayne B. Hayes,
- Abstract要約: 高品質のオフラインレンダリングのためにMovie Render Queue上に構築されたUnreal Engine 5パイプラインであるUnrealPose-Genを紹介します。
8つのシーケンスからなる約100万フレームコーパスであるUnrealPose-1Mを提案する。
本研究では,画像から3Dのポーズ,2Dキーポイント検出,2D-to-3Dリフト,人物検出・隔離の4つの課題について実合成結果について報告する。
- 参考スコア(独自算出の注目度): 2.7087606206363226
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diverse, accurately labeled 3D human pose data is expensive and studio-bound, while in-the-wild datasets lack known ground truth. We introduce UnrealPose-Gen, an Unreal Engine 5 pipeline built on Movie Render Queue for high-quality offline rendering. Our generated frames include: (i) 3D joints in world and camera coordinates, (ii) 2D projections and COCO-style keypoints with occlusion and joint-visibility flags, (iii) person bounding boxes, and (iv) camera intrinsics and extrinsics. We use UnrealPose-Gen to present UnrealPose-1M, an approximately one million frame corpus comprising eight sequences: five scripted "coherent" sequences spanning five scenes, approximately 40 actions, and five subjects; and three randomized sequences across three scenes, approximately 100 actions, and five subjects, all captured from diverse camera trajectories for broad viewpoint coverage. As a fidelity check, we report real-to-synthetic results on four tasks: image-to-3D pose, 2D keypoint detection, 2D-to-3D lifting, and person detection/segmentation. Though time and resources constrain us from an unlimited dataset, we release the UnrealPose-1M dataset, as well as the UnrealPose-Gen pipeline to support third-party generation of human pose data.
- Abstract(参考訳): 異なる、正確にラベル付けされた3Dの人間のポーズデータは高価でスタジオに縛られている。
高品質のオフラインレンダリングのためにMovie Render Queue上に構築されたUnreal Engine 5パイプラインであるUnrealPose-Genを紹介します。
生成されたフレームは以下のとおりです。
(i)世界における3次元関節とカメラ座標
(ii)2次元投射とCOCO型キーポイントの閉塞と共同視認性フラグ
(三)箱を束ねる人、及び
(4)カメラの内在と外因性。
我々は,UnrealPose-Genを用いて,約100万のフレームコーパスを提示する。5つのシーン,約40のアクション,5つの主題にまたがる5つのスクリプト化された"コヒーレント"シーケンスと,3つのシーン,約100のアクション,5つの主題のランダム化されたシーケンスで,いずれも広い視点のカメラトラジェクトリから取得した。
忠実度チェックとして,画像から3Dポーズ,2Dキーポイント検出,2D-to-3Dリフト,人物検出・分離の4つのタスクについて実合成結果を報告する。
時間とリソースは無制限のデータセットから制約されますが、私たちは、UnrealPose-1Mデータセットと、サードパーティによる人間のポーズデータ生成をサポートするUnrealPose-Genパイプラインをリリースしています。
関連論文リスト
- Drag4D: Align Your Motion with Text-Driven 3D Scene Generation [77.79131321983677]
Drag4Dはインタラクティブなフレームワークで、テキスト駆動の3Dシーン生成にオブジェクトの動き制御を統合する。
このフレームワークにより、ユーザーは単一の画像から生成された3Dオブジェクトに対して3Dトラジェクトリを定義し、それらを高品質な3D背景にシームレスに統合することができる。
論文 参考訳(メタデータ) (2025-09-26T05:23:45Z) - Multi-View 3D Point Tracking [67.21282192436031]
本稿では,複数のカメラビューを用いた動的シーンにおける任意の点の追跡を目的とした,データ駆動型マルチビュー3Dポイントトラッカーについて紹介する。
本モデルでは,現実的な数のカメラを用いて直接3次元対応を推定する。
我々は5K合成多視点Kubricシーケンスをトレーニングし、2つの実世界のベンチマークで評価する。
論文 参考訳(メタデータ) (2025-08-28T17:58:20Z) - LiCamPose: Combining Multi-View LiDAR and RGB Cameras for Robust Single-frame 3D Human Pose Estimation [31.651300414497822]
LiCamPoseは、マルチビューRGBとスパースポイントクラウド情報を統合して、単一のフレームで堅牢な3Dポーズを推定するパイプラインである。
LiCamPoseは、2つの公開データセット、1つの合成データセット、1つの挑戦的な自己収集データセットを含む4つのデータセットで評価されている。
論文 参考訳(メタデータ) (2023-12-11T14:30:11Z) - DNA-Rendering: A Diverse Neural Actor Repository for High-Fidelity
Human-centric Rendering [126.00165445599764]
ニューラルアクターレンダリングのための人間のパフォーマンスデータの大規模かつ高忠実なリポジトリであるDNAレンダリングを提案する。
我々のデータセットには、1500人以上の被験者、5000のモーションシーケンス、67.5Mのフレームのデータボリュームが含まれています。
我々は,最大解像度4096 x 3000の60個の同期カメラと15fpsの速度,ステルカメラキャリブレーションステップを含む,データをキャプチャするプロフェッショナルなマルチビューシステムを構築した。
論文 参考訳(メタデータ) (2023-07-19T17:58:03Z) - SLOPER4D: A Scene-Aware Dataset for Global 4D Human Pose Estimation in
Urban Environments [0.0]
SLOPER4Dは,大都市環境下で収集された新たなシーン認識データセットである。
我々は,エゴセントリックな視点から,10の多様な都市シーンにおける12人の被験者の活動を記録している。
SLOPER4Dは15個の人間の動きで構成され、それぞれが200メートル以上の軌道長を持つ。
論文 参考訳(メタデータ) (2023-03-16T05:54:15Z) - Scene-Aware 3D Multi-Human Motion Capture from a Single Camera [83.06768487435818]
静止カメラで記録された1枚のRGBビデオから、シーン内の複数の人間の3次元位置を推定し、その身体形状と調音を推定する問題を考察する。
コンピュータビジョンの最近の進歩を,2次元の人体関節,関節角度,正規化不均等マップ,人間のセグメンテーションマスクなど,様々なモダリティのための大規模事前訓練モデルを用いて活用している。
特に,2次元の関節と関節角度を用いた正規化不均等予測から,シーン深度とユニークな人格尺度を推定する。
論文 参考訳(メタデータ) (2023-01-12T18:01:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。