論文の概要: Egocentric World Model for Photorealistic Hand-Object Interaction Synthesis
- arxiv url: http://arxiv.org/abs/2603.13615v1
- Date: Fri, 13 Mar 2026 21:46:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.300194
- Title: Egocentric World Model for Photorealistic Hand-Object Interaction Synthesis
- Title(参考訳): フォトリアリスティックハンドオブジェクト相互作用合成のためのエゴセントリック世界モデル
- Authors: Dayou Li, Lulin Liu, Bangya Liu, Shijie Zhou, Jiu Feng, Ziqi Lu, Minghui Zheng, Chenyu You, Zhiwen Fan,
- Abstract要約: EgoHOIは、このショートカットから分離したエゴセントリックなHOIワールドモデルであり、アクション信号のみからの光リアルで接触一貫性のある相互作用をシミュレートする。
エゴホイは幾何学的およびキネマティックな先駆体を3次元推定から物理インフォームド埋め込みに蒸留する。
HOT3Dデータセットの実験では、強いベースラインよりも一貫したゲインを示し、設計の有効性を検証する。
- 参考スコア(独自算出の注目度): 25.153233500074194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To serve as a scalable data source for embodied AI, world models should act as true simulators that infer interaction dynamics strictly from user actions, rather than mere conditional video generators relying on privileged future object states. In this context, egocentric Human-Object Interaction (HOI) world models are critical for predicting physically grounded first-person rollouts. However, building such models is profoundly challenging due to rapid head motions, severe occlusions, and high-DoF hand articulations that abruptly alter contact topologies. Consequently, existing approaches often circumvent these physics challenges by resorting to conditional video generation with access to known future object trajectories. We introduce EgoHOI, an egocentric HOI world model that breaks away from this shortcut to simulate photorealistic, contact-consistent interactions from action signals alone. To ensure physical accuracy without future-state inputs, EgoHOI distills geometric and kinematic priors from 3D estimates into physics-informed embeddings. These embeddings regularize the egocentric rollouts toward physically valid dynamics. Experiments on the HOT3D dataset demonstrate consistent gains over strong baselines, and ablations validate the effectiveness of our physics-informed design.
- Abstract(参考訳): エンボディされたAIのためのスケーラブルなデータソースとして機能するために、世界モデルは、特権された将来のオブジェクト状態に依存する条件付きビデオジェネレータではなく、ユーザーアクションからインタラクションダイナミクスを厳密に推論する真のシミュレータとして機能すべきである。
この文脈では、egocentric Human-Object Interaction(HOI)世界モデルは、物理的に座屈した1対1のロールアウトを予測するために重要である。
しかし、このようなモデルの構築は、急速な頭部の動き、重度の閉塞、接触トポロジーを急激に変化させるハイDoFの手の関節が原因で、非常に困難である。
したがって、既存のアプローチは、条件付きビデオ生成に頼って、既知の未来のオブジェクト軌跡にアクセスすることで、これらの物理問題を回避していることが多い。
我々は,このショートカットから分離したエゴセントリックHOI世界モデルであるEgoHOIを紹介し,アクション信号のみからの光リアルで接触一貫性のある相互作用をシミュレートする。
将来の状態入力なしで物理的精度を確保するため、EgoHOIは幾何学的およびキネマティックな先行値を3次元推定から物理インフォームド埋め込みに蒸留する。
これらの埋め込みは、エゴセントリックなロールアウトを物理的に有効なダイナミクスへと規則化する。
HOT3Dデータセットの実験では、強いベースラインよりも一貫したゲインを示し、物理インフォームド設計の有効性を検証する。
関連論文リスト
- EgoGrasp: World-Space Hand-Object Interaction Estimation from Egocentric Videos [25.047225764745978]
EgoGraspは,世界空間のハンドオブジェクトインタラクション(W-HOI)を,野生のダイナミックカメラを用いて,エゴセントリックなモノクロビデオから再構築する最初の方法である。
実験では,W-HOI再建における最先端性能を実現する手法を実証した。
論文 参考訳(メタデータ) (2026-01-03T03:08:48Z) - SpriteHand: Real-Time Versatile Hand-Object Interaction with Autoregressive Video Generation [64.3409486422946]
本研究では,手動インタラクションビデオのリアルタイム合成のための自動回帰ビデオ生成フレームワークSpriteHandを提案する。
我々のモデルは自己回帰生成のための因果推論アーキテクチャを採用し、視覚リアリズムと時間的コヒーレンスを高めるために学習後のハイブリッドアプローチを活用している。
実験は、生成的ベースラインとエンジンベースラインの両方と比較して、視覚的品質、物理的妥当性、相互作用の忠実さが優れていることを示した。
論文 参考訳(メタデータ) (2025-12-01T18:13:40Z) - What Happens Next? Anticipating Future Motion by Generating Point Trajectories [76.16266402727643]
一つの画像から動きを予測し、世界の物体がどのように動くかを予測する問題を考察する。
我々はこのタスクを,現代のビデオジェネレータのアーキテクチャを忠実に追従するモデルを用いて,高密度トラジェクトリグリッドの条件生成として定式化する。
このアプローチはシーン全体のダイナミクスと不確実性を捉え、以前の回帰器やジェネレータよりも正確で多様な予測をもたらす。
論文 参考訳(メタデータ) (2025-09-25T21:03:56Z) - SimGenHOI: Physically Realistic Whole-Body Humanoid-Object Interaction via Generative Modeling and Reinforcement Learning [6.255814224573073]
SimGenHOIは、生成モデリングと強化学習の強みを組み合わせた統一的なフレームワークであり、制御可能で物理的に妥当なHOIを生成する。
本研究では,Diffusion Transformers (DiT) に基づくHOI生成モデルを用いて,テキストプロンプト,オブジェクト形状,スパースオブジェクトウェイポイント,初期ヒューマノイドポーズのセットを予測した。
身体的現実性を確保するため,強化学習で訓練された接触認識全身制御ポリシーを設計し,その動作をトラッキングし,侵入や足の滑りなどのアーティファクトを補正する。
論文 参考訳(メタデータ) (2025-08-18T15:20:46Z) - InterDyn: Controllable Interactive Dynamics with Video Diffusion Models [50.38647583839384]
我々は、初期フレームと駆動対象またはアクターの動作を符号化する制御信号が与えられたインタラクティブな動画像を生成するフレームワークであるInterDynを提案する。
我々の重要な洞察は、大規模なビデオ生成モデルは、大規模ビデオデータからインタラクティブなダイナミクスを学習し、ニューラルと暗黙の物理シミュレーターの両方として機能できるということです。
論文 参考訳(メタデータ) (2024-12-16T13:57:02Z) - PhysDreamer: Physics-Based Interaction with 3D Objects via Video Generation [62.53760963292465]
PhysDreamerは物理に基づくアプローチで、静的な3Dオブジェクトにインタラクティブなダイナミクスを与える。
本稿では, 弾性物体の多様な例について考察し, ユーザスタディを通じて合成された相互作用の現実性を評価する。
論文 参考訳(メタデータ) (2024-04-19T17:41:05Z) - Hindsight for Foresight: Unsupervised Structured Dynamics Models from
Physical Interaction [24.72947291987545]
エージェントが世界と対話することを学ぶための鍵となる課題は、オブジェクトの物理的性質を推論することである。
本研究では,ラベルのない3次元点群と画像から直接,ロボットのインタラクションのダイナミクスをモデル化するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-08-02T11:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。