論文の概要: Generated Reality: Human-centric World Simulation using Interactive Video Generation with Hand and Camera Control
- arxiv url: http://arxiv.org/abs/2602.18422v1
- Date: Fri, 20 Feb 2026 18:45:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 18:01:41.415083
- Title: Generated Reality: Human-centric World Simulation using Interactive Video Generation with Hand and Camera Control
- Title(参考訳): 人工現実感:手動・カメラ制御による対話型映像生成による人中心世界シミュレーション
- Authors: Linxi Xie, Lisong C. Sun, Ashley Neall, Tong Wu, Shengqu Cai, Gordon Wetzstein,
- Abstract要約: トラッキングされたヘッドポーズとジョイントレベルのハンドポーズの両方を条件とした人間中心型ビデオワールドモデルを提案する。
我々は、この戦略を用いて双方向ビデオ拡散モデル教師を訓練し、エゴセントリックな仮想環境を生成する因果的対話システムに蒸留する。
- 参考スコア(独自算出の注目度): 35.371152222595555
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Extended reality (XR) demands generative models that respond to users' tracked real-world motion, yet current video world models accept only coarse control signals such as text or keyboard input, limiting their utility for embodied interaction. We introduce a human-centric video world model that is conditioned on both tracked head pose and joint-level hand poses. For this purpose, we evaluate existing diffusion transformer conditioning strategies and propose an effective mechanism for 3D head and hand control, enabling dexterous hand--object interactions. We train a bidirectional video diffusion model teacher using this strategy and distill it into a causal, interactive system that generates egocentric virtual environments. We evaluate this generated reality system with human subjects and demonstrate improved task performance as well as a significantly higher level of perceived amount of control over the performed actions compared with relevant baselines.
- Abstract(参考訳): 拡張現実(XR)は、ユーザの追跡された現実世界の動きに応答する生成モデルを要求するが、現在のビデオワールドモデルはテキストやキーボード入力のような粗い制御信号のみを受け入れ、その効用を制限する。
追跡された頭部ポーズと関節レベルの手ポーズの両方に条件付けされた人間中心のビデオワールドモデルを導入する。
そこで本研究では,既存の拡散トランスフォーマー条件付け戦略を評価し,手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・
我々は、この戦略を用いて双方向ビデオ拡散モデル教師を訓練し、エゴセントリックな仮想環境を生成する因果的対話システムに蒸留する。
我々は,この生成現実感システムを人体で評価し,タスク性能の向上と,関連するベースラインと比較すると,実行された行動に対する認知的なコントロールのレベルが著しく高いことを実証した。
関連論文リスト
- Hand2World: Autoregressive Egocentric Interaction Generation via Free-Space Hand Gestures [33.2764643227486]
エゴセントリックなインタラクティブな世界モデルは、拡張現実と具体的AIにとって不可欠であり、視覚生成は低レイテンシ、幾何的一貫性、長期的な安定性でユーザの入力に応答する必要がある。
自由空間ハンドジェスチャ下での単一シーン画像からのエゴセントリックなインタラクション生成について検討し、シーンに手を入れたり、オブジェクトと対話したり、ヘッドモーション下でプラプティブルな世界ダイナミクスを誘導するフォトリアリスティックな映像を合成することを目的とした。
この設定には、自由空間のジェスチャーと接触重大なトレーニングデータとの分配シフト、モノクロビューにおける手の動きとカメラの動きのあいまいさ、任意の長さのビデオ生成の必要性など、基本的な課題が導入されている。
論文 参考訳(メタデータ) (2026-02-10T09:51:07Z) - Causal World Modeling for Robot Control [56.31803788587547]
ビデオワールドモデルは、アクションと視覚力学の因果関係を理解することによって、近い将来に想像できる能力を提供する。
本稿では,フレーム予測とポリシ実行を同時に学習する自動回帰拡散フレームワークLingBot-VAを紹介する。
シミュレーションベンチマークと実世界のシナリオの両方でモデルを評価したところ、長距離操作、ポストトレーニングにおけるデータ効率、新しい構成への強力な一般化性などに大きな可能性を示唆している。
論文 参考訳(メタデータ) (2026-01-29T17:07:43Z) - EchoMotion: Unified Human Video and Motion Generation via Dual-Modality Diffusion Transformer [64.69014756863331]
本研究では,外見と人間の動作の同時分布をモデル化するフレームワークであるEchoMotionを紹介する。
また,ビデオトークンとモーショントークンの両方に3次元位置符号化を統一したMVS-RoPEを提案する。
以上の結果から,人間の動きを明示的に表現することは出現することであり,人間中心のビデオ生成のコヒーレンスと妥当性を著しく向上させることが判明した。
論文 参考訳(メタデータ) (2025-12-21T17:08:14Z) - Towards High-Consistency Embodied World Model with Multi-View Trajectory Videos [24.111891848073288]
身体的世界モデルは、視覚的な観察と行動を通じて物理的世界と予測し、相互作用することを目的としている。
MTV-Worldは正確なビジュモータ予測のためのマルチビュートラジェクトリ・ビデオ制御を導入した。
MTV-Worldは、複雑なデュアルアームシナリオにおける正確な制御実行と正確な物理的相互作用モデリングを実現する。
論文 参考訳(メタデータ) (2025-11-17T02:17:04Z) - Learning to Generate Object Interactions with Physics-Guided Video Diffusion [28.191514920144456]
我々は,現実的な剛体制御,インタラクション,エフェクトを可能にする物理誘導型ビデオ生成のアプローチであるKineMaskを紹介する。
本研究では,物体マスクによる将来の運動監視を段階的に除去する2段階のトレーニング戦略を提案する。
実験により、KineMaskは、同等の大きさの最近のモデルよりも強力な改善を達成している。
論文 参考訳(メタデータ) (2025-10-02T17:56:46Z) - MoReact: Generating Reactive Motion from Textual Descriptions [57.642436102978245]
MoReactは拡散に基づく手法で、グローバルな軌跡と局所的な動きを連続的に引き離すように設計されている。
2人の動作データセットから適応したデータを用いて,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2025-09-28T14:31:41Z) - Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。
条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。
実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文 参考訳(メタデータ) (2025-02-10T14:49:09Z) - EgoGen: An Egocentric Synthetic Data Generator [53.32942235801499]
EgoGenは新しい合成データジェネレータで、エゴセントリックな知覚タスクのための正確でリッチな地上訓練データを生成することができる。
EgoGenの中心となるのは、仮想人間の自我中心の視覚入力を直接利用して3D環境を感知する、新しい人間のモーション合成モデルである。
我々は、ヘッドマウントカメラのマッピングとローカライゼーション、エゴセントリックカメラトラッキング、エゴセントリックビューからのヒューマンメッシュリカバリの3つのタスクで、EgoGenの有効性を実証する。
論文 参考訳(メタデータ) (2024-01-16T18:55:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。