論文の概要: PlayerOne: Egocentric World Simulator
- arxiv url: http://arxiv.org/abs/2506.09995v1
- Date: Wed, 11 Jun 2025 17:59:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:03.197063
- Title: PlayerOne: Egocentric World Simulator
- Title(参考訳): PlayerOne: Egocentric World Simulator
- Authors: Yuanpeng Tu, Hao Luo, Xi Chen, Xiang Bai, Fan Wang, Hengshuang Zhao,
- Abstract要約: PlayerOneは、最初のエゴセントリックなリアルワールドシミュレータである。
それは、エゴセントリックなビデオを生成し、エゴセントリックなカメラで捉えたユーザーの実際のシーンの人間の動きと厳密に一致している。
- 参考スコア(独自算出の注目度): 73.88786358213694
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We introduce PlayerOne, the first egocentric realistic world simulator, facilitating immersive and unrestricted exploration within vividly dynamic environments. Given an egocentric scene image from the user, PlayerOne can accurately construct the corresponding world and generate egocentric videos that are strictly aligned with the real scene human motion of the user captured by an exocentric camera. PlayerOne is trained in a coarse-to-fine pipeline that first performs pretraining on large-scale egocentric text-video pairs for coarse-level egocentric understanding, followed by finetuning on synchronous motion-video data extracted from egocentric-exocentric video datasets with our automatic construction pipeline. Besides, considering the varying importance of different components, we design a part-disentangled motion injection scheme, enabling precise control of part-level movements. In addition, we devise a joint reconstruction framework that progressively models both the 4D scene and video frames, ensuring scene consistency in the long-form video generation. Experimental results demonstrate its great generalization ability in precise control of varying human movements and worldconsistent modeling of diverse scenarios. It marks the first endeavor into egocentric real-world simulation and can pave the way for the community to delve into fresh frontiers of world modeling and its diverse applications.
- Abstract(参考訳): 本稿では,エゴセントリックな世界シミュレータであるPlayerOneを紹介する。
ユーザからエゴセントリックなシーンイメージが与えられた場合、PlayerOneは、対応する世界を正確に構築し、エゴセントリックなビデオを生成することができる。
PlayerOneは、粗いレベルのエゴセントリックな理解のために、まず大規模なエゴセントリックなテキストビデオペアで事前トレーニングを行い、続いて、エゴセントセントリックなビデオデータセットから抽出された同期モーションビデオデータを自動構築パイプラインで微調整します。
さらに,異なる部品の重要性を考慮し,パートレベルの動きを正確に制御できるパートディスタングル・モーション・インジェクション・スキームを設計する。
さらに、4Dシーンとビデオフレームの両方を段階的にモデル化し、長期ビデオ生成におけるシーンの一貫性を確保する共同再構築フレームワークを考案した。
実験結果から, 多様な人間の動きを正確に制御し, 多様なシナリオを世界整合的にモデル化する上で, その優れた一般化能力が示された。
これは、エゴセントリックな現実世界のシミュレーションへの最初の取り組みであり、コミュニティが世界モデリングとその多様な応用の新たなフロンティアを掘り下げる道を開くことができる。
関連論文リスト
- EgoM2P: Egocentric Multimodal Multitask Pretraining [55.259234688003545]
大規模なエゴセントリックなマルチモーダルモデルとマルチタスクモデルの構築は、ユニークな課題を示している。
EgoM2Pは、時間的に認識されたマルチモーダルトークンから学習し、エゴセントリックな4D理解のための大規模な汎用モデルをトレーニングするマスク付きモデリングフレームワークである。
私たちはEgoM2Pを完全にオープンソース化し、コミュニティを支援し、エゴセントリックなビジョン研究を前進させます。
論文 参考訳(メタデータ) (2025-06-09T15:59:25Z) - EgoVid-5M: A Large-Scale Video-Action Dataset for Egocentric Video Generation [30.350824860817536]
EgoVid-5Mは、エゴ中心のビデオ生成のための最初の高品質なデータセットである。
本稿では,アクション記述とキネマティック制御信号によって同時に駆動されるエゴセントリックなビデオを生成するEgoDreamerを紹介する。
論文 参考訳(メタデータ) (2024-11-13T07:05:40Z) - EgoGaussian: Dynamic Scene Understanding from Egocentric Video with 3D Gaussian Splatting [95.44545809256473]
エゴガウスアン(EgoGaussian)は、3Dシーンを同時に再構築し、RGBエゴセントリックな入力のみから3Dオブジェクトの動きを動的に追跡する手法である。
動的オブジェクトと背景再構築の品質の両面で,最先端技術と比較して大きな改善が見られた。
論文 参考訳(メタデータ) (2024-06-28T10:39:36Z) - EgoGen: An Egocentric Synthetic Data Generator [53.32942235801499]
EgoGenは新しい合成データジェネレータで、エゴセントリックな知覚タスクのための正確でリッチな地上訓練データを生成することができる。
EgoGenの中心となるのは、仮想人間の自我中心の視覚入力を直接利用して3D環境を感知する、新しい人間のモーション合成モデルである。
我々は、ヘッドマウントカメラのマッピングとローカライゼーション、エゴセントリックカメラトラッキング、エゴセントリックビューからのヒューマンメッシュリカバリの3つのタスクで、EgoGenの有効性を実証する。
論文 参考訳(メタデータ) (2024-01-16T18:55:22Z) - Ego-Body Pose Estimation via Ego-Head Pose Estimation [22.08240141115053]
エゴセントリックなビデオシーケンスから3次元の人間の動きを推定することは、人間の行動理解において重要な役割を担い、VR/ARに様々な応用がある。
Ego-Head Pose Estimation (EgoEgo) と呼ばれる新しい手法を提案する。
この頭と体のポーズのゆがみは、ペア化されたエゴセントリックなビデオと3D人間の動きでデータセットをトレーニングする必要をなくす。
論文 参考訳(メタデータ) (2022-12-09T02:25:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。