論文の概要: PlayerOne: Egocentric World Simulator
- arxiv url: http://arxiv.org/abs/2506.09995v1
- Date: Wed, 11 Jun 2025 17:59:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:03.197063
- Title: PlayerOne: Egocentric World Simulator
- Title(参考訳): PlayerOne: Egocentric World Simulator
- Authors: Yuanpeng Tu, Hao Luo, Xi Chen, Xiang Bai, Fan Wang, Hengshuang Zhao,
- Abstract要約: PlayerOneは、最初のエゴセントリックなリアルワールドシミュレータである。
それは、エゴセントリックなビデオを生成し、エゴセントリックなカメラで捉えたユーザーの実際のシーンの人間の動きと厳密に一致している。
- 参考スコア(独自算出の注目度): 73.88786358213694
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We introduce PlayerOne, the first egocentric realistic world simulator, facilitating immersive and unrestricted exploration within vividly dynamic environments. Given an egocentric scene image from the user, PlayerOne can accurately construct the corresponding world and generate egocentric videos that are strictly aligned with the real scene human motion of the user captured by an exocentric camera. PlayerOne is trained in a coarse-to-fine pipeline that first performs pretraining on large-scale egocentric text-video pairs for coarse-level egocentric understanding, followed by finetuning on synchronous motion-video data extracted from egocentric-exocentric video datasets with our automatic construction pipeline. Besides, considering the varying importance of different components, we design a part-disentangled motion injection scheme, enabling precise control of part-level movements. In addition, we devise a joint reconstruction framework that progressively models both the 4D scene and video frames, ensuring scene consistency in the long-form video generation. Experimental results demonstrate its great generalization ability in precise control of varying human movements and worldconsistent modeling of diverse scenarios. It marks the first endeavor into egocentric real-world simulation and can pave the way for the community to delve into fresh frontiers of world modeling and its diverse applications.
- Abstract(参考訳): 本稿では,エゴセントリックな世界シミュレータであるPlayerOneを紹介する。
ユーザからエゴセントリックなシーンイメージが与えられた場合、PlayerOneは、対応する世界を正確に構築し、エゴセントリックなビデオを生成することができる。
PlayerOneは、粗いレベルのエゴセントリックな理解のために、まず大規模なエゴセントリックなテキストビデオペアで事前トレーニングを行い、続いて、エゴセントセントリックなビデオデータセットから抽出された同期モーションビデオデータを自動構築パイプラインで微調整します。
さらに,異なる部品の重要性を考慮し,パートレベルの動きを正確に制御できるパートディスタングル・モーション・インジェクション・スキームを設計する。
さらに、4Dシーンとビデオフレームの両方を段階的にモデル化し、長期ビデオ生成におけるシーンの一貫性を確保する共同再構築フレームワークを考案した。
実験結果から, 多様な人間の動きを正確に制御し, 多様なシナリオを世界整合的にモデル化する上で, その優れた一般化能力が示された。
これは、エゴセントリックな現実世界のシミュレーションへの最初の取り組みであり、コミュニティが世界モデリングとその多様な応用の新たなフロンティアを掘り下げる道を開くことができる。
関連論文リスト
- UniEgoMotion: A Unified Model for Egocentric Motion Reconstruction, Forecasting, and Generation [21.70816226149573]
本稿では、シーン認識動作合成に一対一のイメージを利用する2つの新しいタスクである、エゴセントリックモーション生成とエゴセントリックモーション予測を紹介する。
我々は,エゴセントリックデバイスに適した新しい頭部中心運動表現を備えた統一された条件付き運動拡散モデルUniEgoMotionを提案する。
UniEgoMotionは、自我中心の運動再構成において最先端のパフォーマンスを達成し、単一の自我中心の画像から動きを初めて生成する。
論文 参考訳(メタデータ) (2025-08-02T00:41:20Z) - EgoM2P: Egocentric Multimodal Multitask Pretraining [55.259234688003545]
大規模なエゴセントリックなマルチモーダルモデルとマルチタスクモデルの構築は、ユニークな課題を示している。
EgoM2Pは、時間的に認識されたマルチモーダルトークンから学習し、エゴセントリックな4D理解のための大規模な汎用モデルをトレーニングするマスク付きモデリングフレームワークである。
私たちはEgoM2Pを完全にオープンソース化し、コミュニティを支援し、エゴセントリックなビジョン研究を前進させます。
論文 参考訳(メタデータ) (2025-06-09T15:59:25Z) - EgoVid-5M: A Large-Scale Video-Action Dataset for Egocentric Video Generation [30.350824860817536]
EgoVid-5Mは、エゴ中心のビデオ生成のための最初の高品質なデータセットである。
本稿では,アクション記述とキネマティック制御信号によって同時に駆動されるエゴセントリックなビデオを生成するEgoDreamerを紹介する。
論文 参考訳(メタデータ) (2024-11-13T07:05:40Z) - Spherical World-Locking for Audio-Visual Localization in Egocentric Videos [53.658928180166534]
我々は,エゴセントリックなシーン表現のための一般的なフレームワークとして,球状ワールドロックを提案する。
従来の2次元平面場を持つ自己中心表現と比較して、SWLは自動による課題を効果的に相殺する。
シーン表現の球面構造を保存する統一エンコーダデコーダトランスアーキテクチャを設計する。
論文 参考訳(メタデータ) (2024-08-09T22:29:04Z) - EgoGaussian: Dynamic Scene Understanding from Egocentric Video with 3D Gaussian Splatting [95.44545809256473]
エゴガウスアン(EgoGaussian)は、3Dシーンを同時に再構築し、RGBエゴセントリックな入力のみから3Dオブジェクトの動きを動的に追跡する手法である。
動的オブジェクトと背景再構築の品質の両面で,最先端技術と比較して大きな改善が見られた。
論文 参考訳(メタデータ) (2024-06-28T10:39:36Z) - EgoGen: An Egocentric Synthetic Data Generator [53.32942235801499]
EgoGenは新しい合成データジェネレータで、エゴセントリックな知覚タスクのための正確でリッチな地上訓練データを生成することができる。
EgoGenの中心となるのは、仮想人間の自我中心の視覚入力を直接利用して3D環境を感知する、新しい人間のモーション合成モデルである。
我々は、ヘッドマウントカメラのマッピングとローカライゼーション、エゴセントリックカメラトラッキング、エゴセントリックビューからのヒューマンメッシュリカバリの3つのタスクで、EgoGenの有効性を実証する。
論文 参考訳(メタデータ) (2024-01-16T18:55:22Z) - CIRCLE: Capture In Rich Contextual Environments [69.97976304918149]
そこで我々は,アクターが仮想世界において知覚し,操作する新たな動き獲得システムを提案する。
9つのシーンにわたる5人の被験者から10時間のフルボディ到達動作を含むデータセットであるCIRCLEを提示する。
このデータセットを用いて、シーン情報に基づいて人間の動きを生成するモデルを訓練する。
論文 参考訳(メタデータ) (2023-03-31T09:18:12Z) - Ego-Body Pose Estimation via Ego-Head Pose Estimation [22.08240141115053]
エゴセントリックなビデオシーケンスから3次元の人間の動きを推定することは、人間の行動理解において重要な役割を担い、VR/ARに様々な応用がある。
Ego-Head Pose Estimation (EgoEgo) と呼ばれる新しい手法を提案する。
この頭と体のポーズのゆがみは、ペア化されたエゴセントリックなビデオと3D人間の動きでデータセットをトレーニングする必要をなくす。
論文 参考訳(メタデータ) (2022-12-09T02:25:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。