論文の概要: EgoControl: Controllable Egocentric Video Generation via 3D Full-Body Poses
- arxiv url: http://arxiv.org/abs/2511.18173v1
- Date: Sat, 22 Nov 2025 19:56:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.670976
- Title: EgoControl: Controllable Egocentric Video Generation via 3D Full-Body Poses
- Title(参考訳): EgoControl:3Dフルボディによるコントロール可能なエゴセントリックビデオ生成
- Authors: Enrico Pallotta, Sina Mokhtarzadeh Azar, Lars Doorenbos, Serdar Ozsoy, Umar Iqbal, Juergen Gall,
- Abstract要約: 我々は,映像予測モデルをトレーニングし,3次元ボディポーズシーケンスに将来のフレーム生成を条件付ける。
本稿では,グローバルカメラのダイナミックスと体の動きを捉える新しいポーズ表現を提案する。
EgoControlは高品質でポーズ一貫性のあるエゴセントリックなビデオを制作する。
- 参考スコア(独自算出の注目度): 23.498627820274496
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Egocentric video generation with fine-grained control through body motion is a key requirement towards embodied AI agents that can simulate, predict, and plan actions. In this work, we propose EgoControl, a pose-controllable video diffusion model trained on egocentric data. We train a video prediction model to condition future frame generation on explicit 3D body pose sequences. To achieve precise motion control, we introduce a novel pose representation that captures both global camera dynamics and articulated body movements, and integrate it through a dedicated control mechanism within the diffusion process. Given a short sequence of observed frames and a sequence of target poses, EgoControl generates temporally coherent and visually realistic future frames that align with the provided pose control. Experimental results demonstrate that EgoControl produces high-quality, pose-consistent egocentric videos, paving the way toward controllable embodied video simulation and understanding.
- Abstract(参考訳): 体の動きによるきめ細かい制御を備えたエゴセントリックなビデオ生成は、アクションをシミュレートし、予測し、計画するAIエージェントにとって、重要な要件である。
本研究では,エゴセントリックなデータに基づいて訓練されたポーズ制御可能なビデオ拡散モデルであるEgoControlを提案する。
我々は,映像予測モデルをトレーニングし,3次元ボディポーズシーケンスに将来のフレーム生成を条件付ける。
高精度な動作制御を実現するために,グローバルカメラのダイナミックスと体の動きを捉える新しいポーズ表現を導入し,拡散過程内で専用の制御機構を通じて統合する。
観察されたフレームの短いシーケンスとターゲットのポーズのシーケンスを与えられたEgoControlは、提供されたポーズ制御に一致した時間的に一貫性があり、視覚的に現実的な将来のフレームを生成する。
実験の結果、EgoControlは高品質でポーズ一貫性のあるエゴセントリックなビデオを生成し、制御可能なエンボディドビデオシミュレーションと理解への道を開いた。
関連論文リスト
- EgoTwin: Dreaming Body and View in First Person [47.06226050137047]
EgoTwinは拡散トランスフォーマーアーキテクチャ上に構築された共同ビデオモーション生成フレームワークである。
EgoTwinは人間の動きを頭部に固定し、サイバネティックスにインスパイアされた相互作用機構を組み込む。
総合的な評価のために、同期されたテキスト-ビデオ-モーション三重項の大規模実世界のデータセットをキュレートする。
論文 参考訳(メタデータ) (2025-08-18T15:33:09Z) - RealisMotion: Decomposed Human Motion Control and Video Generation in the World Space [28.70181587812075]
本研究では,外見,背景,軌道からの動作を明示的に分離する枠組みを提案する。
本手法は,要素ワイド制御性と全映像品質の両面において,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-08-12T03:02:23Z) - Whole-Body Conditioned Egocentric Video Prediction [98.94980209293776]
我々は、人間行動(PEVA)からエゴ中心のビデオを予測するモデルを訓練する。
身体の関節階層によって構成される運動的ポーズの軌跡を条件にすることで,人間の身体行動が1対1の視点から環境をどう形成するかをシミュレートする。
我々の研究は、複雑な現実世界の環境をモデル化し、人間の視点から映像を予測するエージェントの振る舞いを具体化するための最初の試みである。
論文 参考訳(メタデータ) (2025-06-26T17:59:59Z) - PlayerOne: Egocentric World Simulator [73.88786358213694]
PlayerOneは、最初のエゴセントリックなリアルワールドシミュレータである。
それは、エゴセントリックなビデオを生成し、エゴセントリックなカメラで捉えたユーザーの実際のシーンの人間の動きと厳密に一致している。
論文 参考訳(メタデータ) (2025-06-11T17:59:53Z) - EgoM2P: Egocentric Multimodal Multitask Pretraining [55.259234688003545]
大規模なエゴセントリックなマルチモーダルモデルとマルチタスクモデルの構築は、ユニークな課題を示している。
EgoM2Pは、時間的に認識されたマルチモーダルトークンから学習し、エゴセントリックな4D理解のための大規模な汎用モデルをトレーニングするマスク付きモデリングフレームワークである。
私たちはEgoM2Pを完全にオープンソース化し、コミュニティを支援し、エゴセントリックなビジョン研究を前進させます。
論文 参考訳(メタデータ) (2025-06-09T15:59:25Z) - VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control [74.5434726968562]
制御ネットライクなコンディショニング機構を用いて3次元カメラ制御のためのトランスフォーマー映像の改ざん方法を示す。
我々の研究は、トランスフォーマーに基づくビデオ拡散モデルのカメラ制御を可能にする最初のものである。
論文 参考訳(メタデータ) (2024-07-17T17:59:05Z) - Physically Plausible Animation of Human Upper Body from a Single Image [41.027391105867345]
制御可能で動的に応答し,フォトリアリスティックな人間のアニメーションを生成する新しい方法を提案する。
本システムでは,画像空間におけるインタラクションを用いて,物理的に可視な上半身アニメーション(PUBA)を生成することができる。
論文 参考訳(メタデータ) (2022-12-09T09:36:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。