論文の概要: Controllable Egocentric Video Generation via Occlusion-Aware Sparse 3D Hand Joints
- arxiv url: http://arxiv.org/abs/2603.11755v1
- Date: Thu, 12 Mar 2026 10:02:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:26.008168
- Title: Controllable Egocentric Video Generation via Occlusion-Aware Sparse 3D Hand Joints
- Title(参考訳): Occlusion-Aware Sparse 3D Hand Joints による自己中心型映像の制御
- Authors: Chenyangguang Zhang, Botao Ye, Boqi Chen, Alexandros Delitzas, Fangjinhua Wang, Marc Pollefeys, Xi Wang,
- Abstract要約: モーションコントロール可能なビデオ生成は、仮想現実と組み込みAIにおけるエゴセントリックなアプリケーションに不可欠である。
既存の手法は、しばしば3D一貫性のきめ細かい手話を実現するのに苦労する。
単一の参照フレームからエゴセントリックなビデオを生成する新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 87.13154261503168
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motion-controllable video generation is crucial for egocentric applications in virtual reality and embodied AI. However, existing methods often struggle to achieve 3D-consistent fine-grained hand articulation. By adopting on 2D trajectories or implicit poses, they collapse 3D geometry into spatially ambiguous signals or over rely on human-centric priors. Under severe egocentric occlusions, this causes motion inconsistencies and hallucinated artifacts, as well as preventing cross-embodiment generalization to robotic hands. To address these limitations, we propose a novel framework that generates egocentric videos from a single reference frame, leveraging sparse 3D hand joints as embodiment-agnostic control signals with clear semantic and geometric structures. We introduce an efficient control module that resolves occlusion ambiguities while fully preserving 3D information. Specifically, it extracts occlusion-aware features from the source reference frame by penalizing unreliable visual signals from hidden joints, and employs a 3D-based weighting mechanism to robustly handle dynamically occluded target joints during motion propagation. Concurrently, the module directly injects 3D geometric embeddings into the latent space to strictly enforce structural consistency. To facilitate robust training and evaluation, we develop an automated annotation pipeline that yields over one million high-quality egocentric video clips paired with precise hand trajectories. Additionally, we register humanoid kinematic and camera data to construct a cross-embodiment benchmark. Extensive experiments demonstrate that our approach significantly outperforms state-of-the-art baselines, generating high-fidelity egocentric videos with realistic interactions and exhibiting exceptional cross-embodiment generalization to robotic hands.
- Abstract(参考訳): モーションコントロール可能なビデオ生成は、仮想現実と組み込みAIにおけるエゴセントリックなアプリケーションに不可欠である。
しかし、既存の手法は、しばしば3D一貫性のきめ細かい手話を実現するのに苦労する。
2次元軌跡や暗黙のポーズを採用することで、3次元幾何学を空間的にあいまいな信号に分解するか、あるいは人間中心の先行に依存する。
重度の自我中心の閉塞下では、運動の不整合や幻覚を生じさせ、ロボットハンドへのクロス・エボディメントの一般化を防ぐ。
これらの制約に対処するために,一本の参照フレームからエゴセントリックな映像を生成する新しいフレームワークを提案する。
本稿では,3次元情報を完全に保存しつつ,閉塞の曖昧さを解消する効率的な制御モジュールを提案する。
具体的には、隠れた関節から信頼できない視覚信号を貫通させることにより、ソース参照フレームから閉塞認識特徴を抽出し、3Dベースの重み付け機構を用いて、運動伝搬中に動的に閉塞された目標関節を頑健に処理する。
同時に、モジュールは3次元幾何学的埋め込みを直接潜在空間に注入し、構造的整合性を厳格に強制する。
頑健なトレーニングと評価を容易にするために,100万以上の高品質なエゴセントリックなビデオクリップと正確なハンドトラジェクトリを組み合わせた自動アノテーションパイプラインを開発した。
さらに,人間型キネマティックとカメラのデータを登録して,クロス・エボディメント・ベンチマークを構築する。
広汎な実験により、我々のアプローチは最先端のベースラインを著しく上回り、現実的な相互作用を伴う高忠実なエゴセントリックなビデオを生成し、ロボットハンドに例外的なクロス・エボディメントの一般化を示す。
関連論文リスト
- Articulat3D: Reconstructing Articulated Digital Twins From Monocular Videos with Geometric and Motion Constraints [21.83046776294786]
Articulat3Dは、カジュアルにキャプチャされたモノクロビデオからデジタルツインを構築する新しいフレームワークである。
まず,3次元の軌跡を利用して調音運動の低次元構造を利用する動き優先初期化を提案する。
次に、物理的に可算な調音を強制する幾何学的・運動的制約(Geometric and Motion Constraints Refinement)を導入する。
実験により、Articulat3Dは、合成ベンチマークと現実世界のカジュアルにキャプチャされたモノクロビデオで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2026-03-12T06:59:44Z) - Hand2World: Autoregressive Egocentric Interaction Generation via Free-Space Hand Gestures [33.2764643227486]
エゴセントリックなインタラクティブな世界モデルは、拡張現実と具体的AIにとって不可欠であり、視覚生成は低レイテンシ、幾何的一貫性、長期的な安定性でユーザの入力に応答する必要がある。
自由空間ハンドジェスチャ下での単一シーン画像からのエゴセントリックなインタラクション生成について検討し、シーンに手を入れたり、オブジェクトと対話したり、ヘッドモーション下でプラプティブルな世界ダイナミクスを誘導するフォトリアリスティックな映像を合成することを目的とした。
この設定には、自由空間のジェスチャーと接触重大なトレーニングデータとの分配シフト、モノクロビューにおける手の動きとカメラの動きのあいまいさ、任意の長さのビデオ生成の必要性など、基本的な課題が導入されている。
論文 参考訳(メタデータ) (2026-02-10T09:51:07Z) - 3D-Aware Implicit Motion Control for View-Adaptive Human Video Generation [29.389246008057473]
2Dは、新規な視点合成を前に、運動を駆動的視点に厳密に結合する。
3DiMoは、予め訓練されたビデオジェネレータでモーションエンコーダを訓練し、駆動フレームをコンパクトでビューに依存しないモーショントークンに蒸留する。
3DiMoは、フレキシブルでテキスト駆動のカメラコントロールで運転動作を忠実に再現する。
論文 参考訳(メタデータ) (2026-02-03T17:59:09Z) - DragMesh: Interactive 3D Generation Made Easy [12.832539752284466]
DragMeshはリアルタイムインタラクティブな3Dコーディネーションのための堅牢なフレームワークである。
私たちのコアコントリビューションは、新しい分離されたキネマティック推論とモーションジェネレーションフレームワークです。
論文 参考訳(メタデータ) (2025-12-06T13:10:44Z) - Controllable Human-centric Keyframe Interpolation with Generative Prior [55.16558476905587]
本稿では,PoseFuse3D Keyframe Interpolator(PoseFuse3D-KI)を紹介する。
我々は,PoseFuse3D-KIがCHKI-Videoの最先端のベースラインを一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-06-03T17:50:05Z) - 3DTrajMaster: Mastering 3D Trajectory for Multi-Entity Motion in Video Generation [83.98251722144195]
制御可能なビデオ生成における従来の方法は、主に物体の動きを操作するために2D制御信号を利用する。
本稿では3次元空間におけるマルチエンタリティダイナミクスを制御する頑健なコントローラである3DTrajMasterを紹介する。
3DTrajMasterは,多心性3D動作を制御するための精度と一般化の両面において,新しい最先端技術を設定する。
論文 参考訳(メタデータ) (2024-12-10T18:55:13Z) - Atlas3D: Physically Constrained Self-Supporting Text-to-3D for Simulation and Fabrication [50.541882834405946]
我々は,テキストから3Dへの自動的実装であるAtlas3Dを紹介する。
提案手法は,新しい微分可能シミュレーションに基づく損失関数と,物理的にインスパイアされた正規化を組み合わせたものである。
我々は、Atlas3Dの有効性を広範囲な生成タスクを通して検証し、シミュレーションと実環境の両方で結果の3Dモデルを検証する。
論文 参考訳(メタデータ) (2024-05-28T18:33:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。