論文の概要: EgoGrasp: World-Space Hand-Object Interaction Estimation from Egocentric Videos
- arxiv url: http://arxiv.org/abs/2601.01050v1
- Date: Sat, 03 Jan 2026 03:08:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:21.971127
- Title: EgoGrasp: World-Space Hand-Object Interaction Estimation from Egocentric Videos
- Title(参考訳): EgoGrasp:エゴセントリックビデオから世界空間のハンドオブジェクトインタラクション推定
- Authors: Hongming Fu, Wenjia Wang, Xiaozhen Qiao, Shuo Yang, Zheng Liu, Bo Zhao,
- Abstract要約: EgoGraspは,世界空間のハンドオブジェクトインタラクション(W-HOI)を,野生のダイナミックカメラを用いて,エゴセントリックなモノクロビデオから再構築する最初の方法である。
実験では,W-HOI再建における最先端性能を実現する手法を実証した。
- 参考スコア(独自算出の注目度): 25.047225764745978
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose EgoGrasp, the first method to reconstruct world-space hand-object interactions (W-HOI) from egocentric monocular videos with dynamic cameras in the wild. Accurate W-HOI reconstruction is critical for understanding human behavior and enabling applications in embodied intelligence and virtual reality. However, existing hand-object interactions (HOI) methods are limited to single images or camera coordinates, failing to model temporal dynamics or consistent global trajectories. Some recent approaches attempt world-space hand estimation but overlook object poses and HOI constraints. Their performance also suffers under severe camera motion and frequent occlusions common in egocentric in-the-wild videos. To address these challenges, we introduce a multi-stage framework with a robust pre-process pipeline built on newly developed spatial intelligence models, a whole-body HOI prior model based on decoupled diffusion models, and a multi-objective test-time optimization paradigm. Our HOI prior model is template-free and scalable to multiple objects. In experiments, we prove our method achieving state-of-the-art performance in W-HOI reconstruction.
- Abstract(参考訳): EgoGraspは,世界空間のハンドオブジェクトインタラクション(W-HOI)を,野生のダイナミックカメラを用いて,エゴセントリックなモノクロビデオから再構築する最初の方法である。
正確なW-HOI再構成は、人間の行動を理解し、具体的知性とバーチャルリアリティーの応用を可能にするために重要である。
しかし、既存のハンドオブジェクト相互作用(HOI)法は、時間的ダイナミクスや一貫したグローバルな軌道のモデル化に失敗し、単一の画像やカメラ座標に限られている。
最近のいくつかのアプローチでは、世界空間のハンド推定を試みるが、見落としオブジェクトのポーズとHOI制約がある。
彼らのパフォーマンスは、厳格なカメラの動きと、エゴセントリックなインザワイルドビデオでよく見られる閉塞性にも悩まされる。
これらの課題に対処するために、新たに開発された空間知能モデルに基づく堅牢なプロセス前処理パイプライン、疎結合拡散モデルに基づく全身HOI事前モデル、多目的テスト時間最適化のパラダイムを備えた多段階フレームワークを導入する。
私たちのHOI以前のモデルはテンプレートフリーで、複数のオブジェクトに対してスケーラブルです。
実験では,W-HOI再建における最先端性能を実現する手法を実証した。
関連論文リスト
- RAYNOVA: Scale-Temporal Autoregressive World Modeling in Ray Space [51.441415833480505]
RAYNOVAは、二重因果自己回帰フレームワークを使用するシナリオを駆動するための多視点世界モデルである。
相対的なシャーカー線位置符号化に基づいて、ビュー、フレーム、スケールにまたがる等方的時間的表現を構築する。
論文 参考訳(メタデータ) (2026-02-24T08:41:40Z) - AGILE: Hand-Object Interaction Reconstruction from Video via Agentic Generation [45.753757870577196]
本稿では,対話学習のためのエージェント生成にパラダイムを転換する,堅牢なフレームワークAGILEを紹介する。
我々はAGILEがグローバルな幾何学的精度でベースラインを上回り、先行技術が頻繁に崩壊する挑戦的なシーケンスに対して、例外的な堅牢性を証明していることを示す。
論文 参考訳(メタデータ) (2026-02-04T15:42:58Z) - Walk through Paintings: Egocentric World Models from Internet Priors [65.30611174953958]
本稿では,エゴセントリック・ワールド・モデル(EgoWM)について述べる。
我々は、スクラッチからトレーニングするよりも、インターネット規模のビデオモデルのリッチワールドを再利用し、軽量なコンディショニング層を通じてモーターコマンドを注入する。
当社のアプローチは,3-DoF移動ロボットから25-DoFヒューマノイドまで,エボディメントやアクションスペースを自然に拡張する。
論文 参考訳(メタデータ) (2026-01-21T18:59:32Z) - ByteLoom: Weaving Geometry-Consistent Human-Object Interactions through Progressive Curriculum Learning [19.292101162897975]
本稿では,幾何的に一貫したオブジェクト図面を持つ実写HOIビデオを生成するByteLoomを紹介する。
まず、相対座標マップ(RCM)をオブジェクトの幾何整合性を維持する普遍表現として活用するRCM-cache機構を提案する。
次に、モデル能力を進歩的なスタイルで向上し、ハンドメッシュの需要を緩和するトレーニングカリキュラムを設計する。
論文 参考訳(メタデータ) (2025-12-28T09:38:36Z) - Towards High-Consistency Embodied World Model with Multi-View Trajectory Videos [24.111891848073288]
身体的世界モデルは、視覚的な観察と行動を通じて物理的世界と予測し、相互作用することを目的としている。
MTV-Worldは正確なビジュモータ予測のためのマルチビュートラジェクトリ・ビデオ制御を導入した。
MTV-Worldは、複雑なデュアルアームシナリオにおける正確な制御実行と正確な物理的相互作用モデリングを実現する。
論文 参考訳(メタデータ) (2025-11-17T02:17:04Z) - EgoM2P: Egocentric Multimodal Multitask Pretraining [55.259234688003545]
大規模なエゴセントリックなマルチモーダルモデルとマルチタスクモデルの構築は、ユニークな課題を示している。
EgoM2Pは、時間的に認識されたマルチモーダルトークンから学習し、エゴセントリックな4D理解のための大規模な汎用モデルをトレーニングするマスク付きモデリングフレームワークである。
私たちはEgoM2Pを完全にオープンソース化し、コミュニティを支援し、エゴセントリックなビジョン研究を前進させます。
論文 参考訳(メタデータ) (2025-06-09T15:59:25Z) - FRAME: Floor-aligned Representation for Avatar Motion from Egocentric Video [52.33896173943054]
ヘッドマウントのボディフェイスステレオカメラを備えたエゴセントリックなモーションキャプチャーは、VRやARアプリケーションには不可欠だ。
既存の方法は、合成事前学習と、現実の環境で滑らかで正確な予測を生成するのに苦労している。
本稿では、デバイスポーズとカメラフィードを組み合わせて、最先端のボディポーズ予測を行う、シンプルで効果的なアーキテクチャFRAMEを提案する。
論文 参考訳(メタデータ) (2025-03-29T14:26:06Z) - Dyn-HaMR: Recovering 4D Interacting Hand Motion from a Dynamic Camera [49.82535393220003]
Dyn-HaMRは、野生のダイナミックカメラで撮影されたモノクロビデオから4Dグローバルハンドモーションを再構築する最初のアプローチである。
提案手法は,4次元メッシュ・リカバリにおいて最先端の手法を著しく上回ることを示す。
これにより、動くカメラでモノクロビデオから手の動きを復元するための新しいベンチマークが確立される。
論文 参考訳(メタデータ) (2024-12-17T12:43:10Z) - Self-Supervised Monocular 4D Scene Reconstruction for Egocentric Videos [25.41337525728398]
EgoMono4Dは、Egocentric Monocular 4D再構成に必要な複数の変数を統一する新しいモデルである。
全てのベースラインと比較して高密度の点雲列再構成において優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-11-14T02:57:11Z) - EgoGaussian: Dynamic Scene Understanding from Egocentric Video with 3D Gaussian Splatting [95.44545809256473]
エゴガウスアン(EgoGaussian)は、3Dシーンを同時に再構築し、RGBエゴセントリックな入力のみから3Dオブジェクトの動きを動的に追跡する手法である。
動的オブジェクトと背景再構築の品質の両面で,最先端技術と比較して大きな改善が見られた。
論文 参考訳(メタデータ) (2024-06-28T10:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。