論文の概要: Dexterous World Models
- arxiv url: http://arxiv.org/abs/2512.17907v1
- Date: Fri, 19 Dec 2025 18:59:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.541496
- Title: Dexterous World Models
- Title(参考訳): Dexterous World Models
- Authors: Byungjun Kim, Taeksoo Kim, Junyoung Lee, Hanbyul Joo,
- Abstract要約: Dexterous World Model (DWM) はシーンアクション条件付きビデオ拡散フレームワークである。
本稿では,DWMが時間的コヒーレントな映像を生成する方法を示す。
実験により、DWMは、つかむ、開く、動く物体など、現実的で物理的に妥当な相互作用を可能にすることが示されている。
- 参考スコア(独自算出の注目度): 24.21588354488453
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress in 3D reconstruction has made it easy to create realistic digital twins from everyday environments. However, current digital twins remain largely static and are limited to navigation and view synthesis without embodied interactivity. To bridge this gap, we introduce Dexterous World Model (DWM), a scene-action-conditioned video diffusion framework that models how dexterous human actions induce dynamic changes in static 3D scenes. Given a static 3D scene rendering and an egocentric hand motion sequence, DWM generates temporally coherent videos depicting plausible human-scene interactions. Our approach conditions video generation on (1) static scene renderings following a specified camera trajectory to ensure spatial consistency, and (2) egocentric hand mesh renderings that encode both geometry and motion cues to model action-conditioned dynamics directly. To train DWM, we construct a hybrid interaction video dataset. Synthetic egocentric interactions provide fully aligned supervision for joint locomotion and manipulation learning, while fixed-camera real-world videos contribute diverse and realistic object dynamics. Experiments demonstrate that DWM enables realistic and physically plausible interactions, such as grasping, opening, and moving objects, while maintaining camera and scene consistency. This framework represents a first step toward video diffusion-based interactive digital twins and enables embodied simulation from egocentric actions.
- Abstract(参考訳): 近年の3D再構成の進歩により、日々の環境からリアルなデジタル双生児を簡単に作れるようになった。
しかし、現在のデジタルツインはほとんど静止しており、対話性を具現化せずにナビゲーションやビュー合成に限られている。
このギャップを埋めるために,DWM(Dexterous World Model)を紹介した。
静的な3Dシーンレンダリングとエゴセントリックな手の動きシーケンスを与えられたDWMは、可塑性な人間とシーンの相互作用を描写した時間的コヒーレントなビデオを生成する。
提案手法は,(1)特定のカメラ軌道に沿った静的なシーンレンダリングを空間的整合性を確保するために,(2)ジェスチャーとモーションキューの両方をエンコードして動作条件の動的を直接モデル化するエゴセントリックな手メッシュレンダリングについて,映像生成を条件としている。
DWMを訓練するために、我々はハイブリッドインタラクションビデオデータセットを構築した。
合成エゴセントリックな相互作用は、関節運動と操作学習のための完全な整合した監督を提供する一方、固定カメラのリアルワールドビデオは、多種多様な現実的なオブジェクトダイナミクスに寄与する。
実験により、DWMは、カメラとシーンの一貫性を維持しながら、つかみ、開口、移動する物体などの現実的で物理的に妥当な相互作用を可能にすることが示された。
このフレームワークは、ビデオ拡散に基づくインタラクティブデジタル双生児への第一歩であり、エゴセントリックなアクションから具体化されたシミュレーションを可能にする。
関連論文リスト
- UniMo: Unifying 2D Video and 3D Human Motion with an Autoregressive Framework [54.337290937468175]
統合された枠組み内での2次元映像と3次元映像の協調モデリングのための自己回帰モデルUniMoを提案する。
本手法は,正確なモーションキャプチャを行いながら,対応する映像と動きを同時に生成することを示す。
論文 参考訳(メタデータ) (2025-12-03T16:03:18Z) - SyncMV4D: Synchronized Multi-view Joint Diffusion of Appearance and Motion for Hand-Object Interaction Synthesis [47.61773799705708]
同期多視点HOIビデオと4Dモーションを共同生成する最初のモデルであるSyncMV4Dを紹介する。
本手法は,視覚リアリズム,運動可視性,多視点整合性において,最先端の代替手段よりも優れた性能を示す。
論文 参考訳(メタデータ) (2025-11-24T17:14:19Z) - EgoTwin: Dreaming Body and View in First Person [47.06226050137047]
EgoTwinは拡散トランスフォーマーアーキテクチャ上に構築された共同ビデオモーション生成フレームワークである。
EgoTwinは人間の動きを頭部に固定し、サイバネティックスにインスパイアされた相互作用機構を組み込む。
総合的な評価のために、同期されたテキスト-ビデオ-モーション三重項の大規模実世界のデータセットをキュレートする。
論文 参考訳(メタデータ) (2025-08-18T15:33:09Z) - PlayerOne: Egocentric World Simulator [73.88786358213694]
PlayerOneは、最初のエゴセントリックなリアルワールドシミュレータである。
それは、エゴセントリックなビデオを生成し、エゴセントリックなカメラで捉えたユーザーの実際のシーンの人間の動きと厳密に一致している。
論文 参考訳(メタデータ) (2025-06-11T17:59:53Z) - SViMo: Synchronized Diffusion for Video and Motion Generation in Hand-object Interaction Scenarios [48.09735396455107]
ハンドオブジェクトインタラクション(HOI)生成には、大きな応用可能性がある。
現在の3D HOIモーション生成アプローチは、事前に定義された3Dオブジェクトモデルとラボでキャプチャされたモーションデータに大きく依存している。
本稿では,同期拡散プロセス内での視覚的事前制約と動的制約を組み合わせることで,HOIビデオと動きを同時に生成するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-03T05:04:29Z) - InterDyn: Controllable Interactive Dynamics with Video Diffusion Models [50.38647583839384]
我々は、初期フレームと駆動対象またはアクターの動作を符号化する制御信号が与えられたインタラクティブな動画像を生成するフレームワークであるInterDynを提案する。
我々の重要な洞察は、大規模なビデオ生成モデルは、大規模ビデオデータからインタラクティブなダイナミクスを学習し、ニューラルと暗黙の物理シミュレーターの両方として機能できるということです。
論文 参考訳(メタデータ) (2024-12-16T13:57:02Z) - EgoGaussian: Dynamic Scene Understanding from Egocentric Video with 3D Gaussian Splatting [95.44545809256473]
エゴガウスアン(EgoGaussian)は、3Dシーンを同時に再構築し、RGBエゴセントリックな入力のみから3Dオブジェクトの動きを動的に追跡する手法である。
動的オブジェクトと背景再構築の品質の両面で,最先端技術と比較して大きな改善が見られた。
論文 参考訳(メタデータ) (2024-06-28T10:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。