論文の概要: EgoSim: Egocentric World Simulator for Embodied Interaction Generation
- arxiv url: http://arxiv.org/abs/2604.01001v1
- Date: Wed, 01 Apr 2026 15:00:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:32.049617
- Title: EgoSim: Egocentric World Simulator for Embodied Interaction Generation
- Title(参考訳): EgoSim:Egocentric World Simulator for Embodied Interaction Generation
- Authors: Jinkun Hao, Mingda Jia, Ruiyan Wang, Xihui Liu, Ran Yi, Lizhuang Ma, Jiangmiao Pang, Xudong Xu,
- Abstract要約: EgoSimは、空間的に一貫した対話ビデオを生成するクローズドループエゴセントリックな世界シミュレータである。
連続シミュレーションのために、基礎となる3Dシーン状態を継続的に更新する。
EgoSimは、視覚的品質、空間的整合性、一般化の点で、既存の手法を大幅に上回っている。
- 参考スコア(独自算出の注目度): 93.11209644808783
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce EgoSim, a closed-loop egocentric world simulator that generates spatially consistent interaction videos and persistently updates the underlying 3D scene state for continuous simulation. Existing egocentric simulators either lack explicit 3D grounding, causing structural drift under viewpoint changes, or treat the scene as static, failing to update world states across multi-stage interactions. EgoSim addresses both limitations by modeling 3D scenes as updatable world states. We generate embodiment interactions via a Geometry-action-aware Observation Simulation model, with spatial consistency from an Interaction-aware State Updating module. To overcome the critical data bottleneck posed by the difficulty in acquiring densely aligned scene-interaction training pairs, we design a scalable pipeline that extracts static point clouds, camera trajectories, and embodiment actions from in-the-wild large-scale monocular egocentric videos. We further introduce EgoCap, a capture system that enables low-cost real-world data collection with uncalibrated smartphones. Extensive experiments demonstrate that EgoSim significantly outperforms existing methods in terms of visual quality, spatial consistency, and generalization to complex scenes and in-the-wild dexterous interactions, while supporting cross-embodiment transfer to robotic manipulation. Codes and datasets will be open soon. The project page is at egosimulator.github.io.
- Abstract(参考訳): 本研究では,空間的に一貫したインタラクションビデオを生成するクローズドループエゴセントリック世界シミュレータであるEgoSimを紹介し,連続シミュレーションのための基礎となる3Dシーン状態を継続的に更新する。
既存のエゴセントリックシミュレータは明示的な3Dグラウンドを欠いているか、視点の変化の下で構造的なドリフトを引き起こしているか、あるいはシーンを静的として扱い、多段階の相互作用で世界状態を更新できないかのいずれかである。
EgoSimは、3Dシーンをアップダブルな世界状態としてモデル化することで、両方の制限に対処する。
我々は、干渉対応状態更新モジュールから空間的整合性を持つ幾何対応観測シミュレーションモデルを用いて、エンボディメント相互作用を生成する。
密集したシーン・インタラクション・トレーニングペアの獲得が困難であるために,我々は,静的点雲,カメラ軌跡,エンボディメントアクションを広範に抽出するスケーラブルなパイプラインを設計した。
さらに,非校正スマートフォンによる低コストな実世界のデータ収集を可能にするキャプチャシステムであるEgoCapについても紹介する。
EgoSimは、視覚的品質、空間的整合性、複雑なシーンへの一般化、そして、ロボット操作へのクロス・エボディメント・トランスファーのサポートなどにおいて、既存の手法を著しく上回っている。
コードとデータセットは近く公開される。
プロジェクトページは egosimulator.github.io にある。
関連論文リスト
- Egocentric World Model for Photorealistic Hand-Object Interaction Synthesis [25.153233500074194]
EgoHOIは、このショートカットから分離したエゴセントリックなHOIワールドモデルであり、アクション信号のみからの光リアルで接触一貫性のある相互作用をシミュレートする。
エゴホイは幾何学的およびキネマティックな先駆体を3次元推定から物理インフォームド埋め込みに蒸留する。
HOT3Dデータセットの実験では、強いベースラインよりも一貫したゲインを示し、設計の有効性を検証する。
論文 参考訳(メタデータ) (2026-03-13T21:46:17Z) - EgoReAct: Egocentric Video-Driven 3D Human Reaction Generation [84.37917777533963]
EgoReActは,エゴセントリックな映像ストリームからリアルタイムに3Dアライメントされた人間の反応運動を生成する最初のフレームワークである。
EgoReAct は,従来の手法に比べて極めて高いリアリズム,空間整合性,生成効率を実現している。
論文 参考訳(メタデータ) (2025-12-28T06:44:05Z) - PlayerOne: Egocentric World Simulator [73.88786358213694]
PlayerOneは、最初のエゴセントリックなリアルワールドシミュレータである。
それは、エゴセントリックなビデオを生成し、エゴセントリックなカメラで捉えたユーザーの実際のシーンの人間の動きと厳密に一致している。
論文 参考訳(メタデータ) (2025-06-11T17:59:53Z) - EgoGen: An Egocentric Synthetic Data Generator [53.32942235801499]
EgoGenは新しい合成データジェネレータで、エゴセントリックな知覚タスクのための正確でリッチな地上訓練データを生成することができる。
EgoGenの中心となるのは、仮想人間の自我中心の視覚入力を直接利用して3D環境を感知する、新しい人間のモーション合成モデルである。
我々は、ヘッドマウントカメラのマッピングとローカライゼーション、エゴセントリックカメラトラッキング、エゴセントリックビューからのヒューマンメッシュリカバリの3つのタスクで、EgoGenの有効性を実証する。
論文 参考訳(メタデータ) (2024-01-16T18:55:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。