論文の概要: EgoForge: Goal-Directed Egocentric World Simulator
- arxiv url: http://arxiv.org/abs/2603.20169v1
- Date: Fri, 20 Mar 2026 17:46:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:39.264369
- Title: EgoForge: Goal-Directed Egocentric World Simulator
- Title(参考訳): EgoForge: ゴール指向のEgocentric World Simulator
- Authors: Yifan Shen, Jiateng Liu, Xinzhuo Li, Yuanzhe Liu, Bingxuan Li, Houze Yang, Wenqi Jia, Yijiang Li, Tianjiao Yu, James Matthew Rehg, Xu Cao, Ismini Lourentzou,
- Abstract要約: EgoForgeはゴール指向の世界シミュレータで、最小限の静的入力から一対一のビデオロールアウトを生成する。
VideoDiffusionNFTは、拡散サンプリング中の目標完了、時間的因果性、シーンの一貫性、知覚的忠実度を最適化する軌道レベルの報酬誘導改良である。
- 参考スコア(独自算出の注目度): 26.712565464146937
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Generative world models have shown promise for simulating dynamic environments, yet egocentric video remains challenging due to rapid viewpoint changes, frequent hand-object interactions, and goal-directed procedures whose evolution depends on latent human intent. Existing approaches either focus on hand-centric instructional synthesis with limited scene evolution, perform static view translation without modeling action dynamics, or rely on dense supervision, such as camera trajectories, long video prefixes, synchronized multicamera capture, etc. In this work, we introduce EgoForge, an egocentric goal-directed world simulator that generates coherent, first-person video rollouts from minimal static inputs: a single egocentric image, a high-level instruction, and an optional auxiliary exocentric view. To improve intent alignment and temporal consistency, we propose VideoDiffusionNFT, a trajectory-level reward-guided refinement that optimizes goal completion, temporal causality, scene consistency, and perceptual fidelity during diffusion sampling. Extensive experiments show EgoForge achieves consistent gains in semantic alignment, geometric stability, and motion fidelity over strong baselines, and robust performance in real-world smart-glasses experiments.
- Abstract(参考訳): 生成的世界モデルは、動的環境をシミュレートする可能性を示しているが、急激な視点の変化、頻繁な手-対象の相互作用、進化が潜伏する人間の意図に依存する目標指向の手順のために、自我中心のビデオは依然として困難である。
既存のアプローチは、シーンの限られた進化を伴う手中心の指導合成に焦点を当て、アクションダイナミクスをモデル化せずに静的なビュー変換を実行するか、カメラトラジェクトリ、長いビデオプレフィックス、同期マルチカメラキャプチャなど、密集した監視に依存している。
本研究では,エゴセントリックなゴール指向世界シミュレータであるEgoForgeを紹介し,最小限の静的入力から一対一の映像ロールアウトを生成する。
目的達成, 時間的因果性, シーンの整合性, 拡散サンプリング時の知覚的忠実度を最適化する, 軌道レベルの報酬誘導改良である VideoDiffusionNFT を提案する。
大規模な実験により、EgoForgeは、セマンティックアライメント、幾何学的安定性、強力なベースライン上での運動忠実度、および現実世界のスマートグラス実験におけるロバストなパフォーマンスにおいて、一貫した向上を達成した。
関連論文リスト
- Hand2World: Autoregressive Egocentric Interaction Generation via Free-Space Hand Gestures [33.2764643227486]
エゴセントリックなインタラクティブな世界モデルは、拡張現実と具体的AIにとって不可欠であり、視覚生成は低レイテンシ、幾何的一貫性、長期的な安定性でユーザの入力に応答する必要がある。
自由空間ハンドジェスチャ下での単一シーン画像からのエゴセントリックなインタラクション生成について検討し、シーンに手を入れたり、オブジェクトと対話したり、ヘッドモーション下でプラプティブルな世界ダイナミクスを誘導するフォトリアリスティックな映像を合成することを目的とした。
この設定には、自由空間のジェスチャーと接触重大なトレーニングデータとの分配シフト、モノクロビューにおける手の動きとカメラの動きのあいまいさ、任意の長さのビデオ生成の必要性など、基本的な課題が導入されている。
論文 参考訳(メタデータ) (2026-02-10T09:51:07Z) - Walk through Paintings: Egocentric World Models from Internet Priors [65.30611174953958]
本稿では,エゴセントリック・ワールド・モデル(EgoWM)について述べる。
我々は、スクラッチからトレーニングするよりも、インターネット規模のビデオモデルのリッチワールドを再利用し、軽量なコンディショニング層を通じてモーターコマンドを注入する。
当社のアプローチは,3-DoF移動ロボットから25-DoFヒューマノイドまで,エボディメントやアクションスペースを自然に拡張する。
論文 参考訳(メタデータ) (2026-01-21T18:59:32Z) - EgoGrasp: World-Space Hand-Object Interaction Estimation from Egocentric Videos [25.047225764745978]
EgoGraspは,世界空間のハンドオブジェクトインタラクション(W-HOI)を,野生のダイナミックカメラを用いて,エゴセントリックなモノクロビデオから再構築する最初の方法である。
実験では,W-HOI再建における最先端性能を実現する手法を実証した。
論文 参考訳(メタデータ) (2026-01-03T03:08:48Z) - TeleWorld: Towards Dynamic Multimodal Synthesis with a 4D World Model [53.555353366322464]
我々は,映像生成,動的シーン再構成,長期記憶をクローズドループシステム内で統合するリアルタイム多モード4DワールドモデリングフレームワークTeleWorldを提案する。
提案手法は,動的オブジェクトモデリングと静的シーン表現のシームレスな統合を実現し,現実的でインタラクティブで計算可能な合成システムに向けて世界モデルを推し進める。
論文 参考訳(メタデータ) (2025-12-31T18:31:46Z) - Hand-Aware Egocentric Motion Reconstruction with Sequence-Level Context [17.735273173582716]
本稿では,頭部軌跡と間欠的に見える手探触子を直接条件とする,最初の手認識型シーケンスレベルの拡散フレームワークHaMoSを提案する。
また, 身体形状や視野といったシーケンスレベルのコンテキストが, 正確な運動再構成に不可欠であることを示す。
論文 参考訳(メタデータ) (2025-12-22T11:26:41Z) - PlayerOne: Egocentric World Simulator [73.88786358213694]
PlayerOneは、最初のエゴセントリックなリアルワールドシミュレータである。
それは、エゴセントリックなビデオを生成し、エゴセントリックなカメラで捉えたユーザーの実際のシーンの人間の動きと厳密に一致している。
論文 参考訳(メタデータ) (2025-06-11T17:59:53Z) - EgoM2P: Egocentric Multimodal Multitask Pretraining [55.259234688003545]
大規模なエゴセントリックなマルチモーダルモデルとマルチタスクモデルの構築は、ユニークな課題を示している。
EgoM2Pは、時間的に認識されたマルチモーダルトークンから学習し、エゴセントリックな4D理解のための大規模な汎用モデルをトレーニングするマスク付きモデリングフレームワークである。
私たちはEgoM2Pを完全にオープンソース化し、コミュニティを支援し、エゴセントリックなビジョン研究を前進させます。
論文 参考訳(メタデータ) (2025-06-09T15:59:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。