論文の概要: E$^3$C: Video Generation with 3D Environmental Memory and Ego-Exo Human Pose Control
- arxiv url: http://arxiv.org/abs/2605.26316v1
- Date: Mon, 25 May 2026 20:13:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.399695
- Title: E$^3$C: Video Generation with 3D Environmental Memory and Ego-Exo Human Pose Control
- Title(参考訳): E$^3$C:3次元環境記憶とEgo-Exo人間の視点制御による映像生成
- Authors: Qiao Gu, Lingni Ma, Adam W Harley, Richard Newcombe, Florian Shkurti, Julian Straub,
- Abstract要約: E$3$Cは、自己中心型生成のための制御可能なビデオ拡散フレームワークである。
永続的なシーン構造を人間駆動のダイナミックスから切り離す構造的でコンパクトな条件を構築する。
E$3$Cは、視覚的忠実度、カメラモーションの精度、オブジェクトの一貫性、強力なベースラインに対するエゴとエクソの人間のコントロールを改善する。
- 参考スコア(独自算出の注目度): 24.385592831884797
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Controllable and physically grounded egocentric video generation is essential for embodied agents to reason about how their own and others' actions manifest and change the world. Compared to generic video synthesis, egocentric generation is especially challenging: the camera is tightly coupled to the actor, leading to rapid viewpoint changes and frequent self-occlusions; the underlying actions are subtle, articulated, and often only partially visible; and both the people and the scene state must evolve consistently with the specified controls. We present E$^3$C, a controllable video diffusion framework for egocentric generation that builds structured and compact conditions disentangling persistent scene structure from human-driven dynamics. From context frames, E$^3$C constructs a semi-dense point cloud-based 3D memory and augments each point with appearance descriptors from video-VAE features. Rendering this memory into target viewpoints produces conditioning aligned with the target frames. Human dynamics are modeled separately. The observed people in the scene are controlled by skeleton renderings (exo human control), while the camera wearer is specified by their 3D body joints and 6DoF wrist motion (ego human control). To preserve ego human control when the wearer's body parts are invisible, we introduce an ego motion encoder that produces persistent cross-attention tokens. Experiments on Nymeria show that E$^3$C improves visual fidelity, camera-motion accuracy, object consistency, and ego & exo human control over strong baselines, while also enabling intuitive scene editing.
- Abstract(参考訳): コントロール可能で物理的に根ざした自我中心のビデオ生成は、自我と他者の行動がどのように現われ、世界を変えるかを説明するために、体現されたエージェントにとって不可欠である。
カメラはアクターに強く結びついており、迅速な視点の変化と頻繁な自己閉塞をもたらし、根底にあるアクションは微妙で、明瞭で、しばしば部分的にしか見えない。
E$^3$Cは、人間駆動力学から永続的なシーン構造を引き離す構造的かつコンパクトな条件を構築する、エゴセントリックな生成のための制御可能なビデオ拡散フレームワークである。
コンテキストフレームから、E$^3$Cは、半密度のクラウドベースの3Dメモリを構築し、ビデオVAE機能からの外観記述子を各ポイントに拡張する。
このメモリを対象の視点にレンダリングすると、ターゲットのフレームに整合した条件付けが生成される。
人間の力学は別々にモデル化される。
カメラの装着者は3Dのボディジョイントと6DoFの手首の動き(人間のコントロール)によって指定される。
着用者の身体が見えないときのエゴ人間のコントロールを維持するために,永続的なクロスアテンショントークンを生成するエゴモーションエンコーダを導入する。
Nymeriaの実験では、E$^3$Cは視覚的忠実度、カメラモーションの精度、オブジェクトの一貫性、強力なベースラインに対するエゴとエクソの人間のコントロールを改善し、直感的なシーン編集を可能にしている。
関連論文リスト
- EgoExo-WM: Unlocking Exo Video for Ego World Models [59.337519140691775]
エゴセントリックな世界モデルはエージェントの予測と計画を可能にする有望な方向性を示す。
外心ビデオは豊富で、身体のポーズは良好だが、エージェントのアクション空間と直接的に一致していない。
本稿では,このギャップを埋めるために,アクションの表現として,外心ビデオから構造体ポーズを抽出する手法を提案する。
論文 参考訳(メタデータ) (2026-05-14T23:35:54Z) - Controllable Egocentric Video Generation via Occlusion-Aware Sparse 3D Hand Joints [87.13154261503168]
モーションコントロール可能なビデオ生成は、仮想現実と組み込みAIにおけるエゴセントリックなアプリケーションに不可欠である。
既存の手法は、しばしば3D一貫性のきめ細かい手話を実現するのに苦労する。
単一の参照フレームからエゴセントリックなビデオを生成する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-12T10:02:23Z) - Hand2World: Autoregressive Egocentric Interaction Generation via Free-Space Hand Gestures [33.2764643227486]
エゴセントリックなインタラクティブな世界モデルは、拡張現実と具体的AIにとって不可欠であり、視覚生成は低レイテンシ、幾何的一貫性、長期的な安定性でユーザの入力に応答する必要がある。
自由空間ハンドジェスチャ下での単一シーン画像からのエゴセントリックなインタラクション生成について検討し、シーンに手を入れたり、オブジェクトと対話したり、ヘッドモーション下でプラプティブルな世界ダイナミクスを誘導するフォトリアリスティックな映像を合成することを目的とした。
この設定には、自由空間のジェスチャーと接触重大なトレーニングデータとの分配シフト、モノクロビューにおける手の動きとカメラの動きのあいまいさ、任意の長さのビデオ生成の必要性など、基本的な課題が導入されている。
論文 参考訳(メタデータ) (2026-02-10T09:51:07Z) - VHOI: Controllable Video Generation of Human-Object Interactions from Sparse Trajectories via Motion Densification [65.15340059997273]
VHOIは、ビデオにおける現実的な人間とオブジェクトの相互作用を作成するためのフレームワークである。
そこで本研究では,人体と物体の運動だけでなく,身体部分特異的な動特性も識別するために,色エンコーディングを用いた新しいHOI対応動作表現を提案する。
実験は、制御可能なHOIビデオ生成における最先端の結果を示す。
論文 参考訳(メタデータ) (2025-12-10T13:40:24Z) - EgoControl: Controllable Egocentric Video Generation via 3D Full-Body Poses [23.498627820274496]
我々は,映像予測モデルをトレーニングし,3次元ボディポーズシーケンスに将来のフレーム生成を条件付ける。
本稿では,グローバルカメラのダイナミックスと体の動きを捉える新しいポーズ表現を提案する。
EgoControlは高品質でポーズ一貫性のあるエゴセントリックなビデオを制作する。
論文 参考訳(メタデータ) (2025-11-22T19:56:39Z) - EgoTwin: Dreaming Body and View in First Person [47.06226050137047]
EgoTwinは拡散トランスフォーマーアーキテクチャ上に構築された共同ビデオモーション生成フレームワークである。
EgoTwinは人間の動きを頭部に固定し、サイバネティックスにインスパイアされた相互作用機構を組み込む。
総合的な評価のために、同期されたテキスト-ビデオ-モーション三重項の大規模実世界のデータセットをキュレートする。
論文 参考訳(メタデータ) (2025-08-18T15:33:09Z) - PlayerOne: Egocentric World Simulator [73.88786358213694]
PlayerOneは、最初のエゴセントリックなリアルワールドシミュレータである。
それは、エゴセントリックなビデオを生成し、エゴセントリックなカメラで捉えたユーザーの実際のシーンの人間の動きと厳密に一致している。
論文 参考訳(メタデータ) (2025-06-11T17:59:53Z) - EgoChoir: Capturing 3D Human-Object Interaction Regions from Egocentric Views [51.53089073920215]
エゴセントリックな人間と物体の相互作用(HOI)を理解することは、人間中心の知覚の基本的な側面である。
既存の手法は主にHOIの観測を利用して、外心的な視点から相互作用領域を捉えている。
EgoChoirは、オブジェクト構造と、外見と頭部運動に固有の相互作用コンテキストを結びつけて、オブジェクトの余裕を明らかにする。
論文 参考訳(メタデータ) (2024-05-22T14:03:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。