論文の概要: Hand2World: Autoregressive Egocentric Interaction Generation via Free-Space Hand Gestures
- arxiv url: http://arxiv.org/abs/2602.09600v1
- Date: Tue, 10 Feb 2026 09:51:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.483119
- Title: Hand2World: Autoregressive Egocentric Interaction Generation via Free-Space Hand Gestures
- Title(参考訳): Hand2World:自由空間ハンドジェスチャによる自己回帰型自己中心型インタラクション生成
- Authors: Yuxi Wang, Wenqi Ouyang, Tianyi Wei, Yi Dong, Zhiqi Shen, Xingang Pan,
- Abstract要約: エゴセントリックなインタラクティブな世界モデルは、拡張現実と具体的AIにとって不可欠であり、視覚生成は低レイテンシ、幾何的一貫性、長期的な安定性でユーザの入力に応答する必要がある。
自由空間ハンドジェスチャ下での単一シーン画像からのエゴセントリックなインタラクション生成について検討し、シーンに手を入れたり、オブジェクトと対話したり、ヘッドモーション下でプラプティブルな世界ダイナミクスを誘導するフォトリアリスティックな映像を合成することを目的とした。
この設定には、自由空間のジェスチャーと接触重大なトレーニングデータとの分配シフト、モノクロビューにおける手の動きとカメラの動きのあいまいさ、任意の長さのビデオ生成の必要性など、基本的な課題が導入されている。
- 参考スコア(独自算出の注目度): 33.2764643227486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Egocentric interactive world models are essential for augmented reality and embodied AI, where visual generation must respond to user input with low latency, geometric consistency, and long-term stability. We study egocentric interaction generation from a single scene image under free-space hand gestures, aiming to synthesize photorealistic videos in which hands enter the scene, interact with objects, and induce plausible world dynamics under head motion. This setting introduces fundamental challenges, including distribution shift between free-space gestures and contact-heavy training data, ambiguity between hand motion and camera motion in monocular views, and the need for arbitrary-length video generation. We present Hand2World, a unified autoregressive framework that addresses these challenges through occlusion-invariant hand conditioning based on projected 3D hand meshes, allowing visibility and occlusion to be inferred from scene context rather than encoded in the control signal. To stabilize egocentric viewpoint changes, we inject explicit camera geometry via per-pixel Plücker-ray embeddings, disentangling camera motion from hand motion and preventing background drift. We further develop a fully automated monocular annotation pipeline and distill a bidirectional diffusion model into a causal generator, enabling arbitrary-length synthesis. Experiments on three egocentric interaction benchmarks show substantial improvements in perceptual quality and 3D consistency while supporting camera control and long-horizon interactive generation.
- Abstract(参考訳): エゴセントリックなインタラクティブな世界モデルは、拡張現実と具体的AIにとって不可欠であり、視覚生成は低レイテンシ、幾何的一貫性、長期的な安定性でユーザの入力に応答する必要がある。
自由空間ハンドジェスチャ下での単一シーン画像からのエゴセントリックなインタラクション生成について検討し、シーンに手を入れたり、オブジェクトと対話したり、ヘッドモーション下でプラプティブルな世界ダイナミクスを誘導するフォトリアリスティックな映像を合成することを目的とした。
この設定には、自由空間のジェスチャーと接触重大なトレーニングデータとの分配シフト、モノクロビューにおける手の動きとカメラの動きのあいまいさ、任意の長さのビデオ生成の必要性など、基本的な課題が導入されている。
我々は3Dハンドメッシュをベースとしたオクルージョン不変ハンドコンディショニングにより,これらの課題に対処する統合された自己回帰フレームワークHand2Worldを提案する。
エゴセントリックな視点変化を安定させるために、画素ごとのプラッカー線埋め込み、手の動きからカメラの動きを遠ざけ、背景のドリフトを防止し、露骨なカメラ形状を注入する。
さらに、完全自動単分子アノテーションパイプラインを開発し、双方向拡散モデルを因果生成器に蒸留し、任意の長さの合成を可能にする。
3つのエゴセントリック相互作用ベンチマークの実験は、カメラ制御と長距離対話生成をサポートしながら、知覚品質と3次元一貫性を大幅に改善した。
関連論文リスト
- EgoReAct: Egocentric Video-Driven 3D Human Reaction Generation [84.37917777533963]
EgoReActは,エゴセントリックな映像ストリームからリアルタイムに3Dアライメントされた人間の反応運動を生成する最初のフレームワークである。
EgoReAct は,従来の手法に比べて極めて高いリアリズム,空間整合性,生成効率を実現している。
論文 参考訳(メタデータ) (2025-12-28T06:44:05Z) - Dexterous World Models [24.21588354488453]
Dexterous World Model (DWM) はシーンアクション条件付きビデオ拡散フレームワークである。
本稿では,DWMが時間的コヒーレントな映像を生成する方法を示す。
実験により、DWMは、つかむ、開く、動く物体など、現実的で物理的に妥当な相互作用を可能にすることが示されている。
論文 参考訳(メタデータ) (2025-12-19T18:59:51Z) - EgoTwin: Dreaming Body and View in First Person [47.06226050137047]
EgoTwinは拡散トランスフォーマーアーキテクチャ上に構築された共同ビデオモーション生成フレームワークである。
EgoTwinは人間の動きを頭部に固定し、サイバネティックスにインスパイアされた相互作用機構を組み込む。
総合的な評価のために、同期されたテキスト-ビデオ-モーション三重項の大規模実世界のデータセットをキュレートする。
論文 参考訳(メタデータ) (2025-08-18T15:33:09Z) - SViMo: Synchronized Diffusion for Video and Motion Generation in Hand-object Interaction Scenarios [48.09735396455107]
ハンドオブジェクトインタラクション(HOI)生成には、大きな応用可能性がある。
現在の3D HOIモーション生成アプローチは、事前に定義された3Dオブジェクトモデルとラボでキャプチャされたモーションデータに大きく依存している。
本稿では,同期拡散プロセス内での視覚的事前制約と動的制約を組み合わせることで,HOIビデオと動きを同時に生成するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-03T05:04:29Z) - HOSIG: Full-Body Human-Object-Scene Interaction Generation with Hierarchical Scene Perception [57.37135310143126]
HO SIGは階層的なシーン認識を通じて全体インタラクションを合成するための新しいフレームワークである。
我々のフレームワークは、自己回帰生成による運動長の無制限化をサポートし、手動による介入を最小限に抑える。
この研究は、シーン認識ナビゲーションとデクスタラスオブジェクト操作の間に重要なギャップを埋める。
論文 参考訳(メタデータ) (2025-06-02T12:08:08Z) - Decoupling Dynamic Monocular Videos for Dynamic View Synthesis [50.93409250217699]
動的モノクロビデオからの動的ビュー合成の課題を教師なしで解決する。
具体的には、動的物体の運動を物体の動きとカメラの動きに分離し、教師なし表面の整合性およびパッチベースのマルチビュー制約によって規則化する。
論文 参考訳(メタデータ) (2023-04-04T11:25:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。