論文の概要: WHOLE: World-Grounded Hand-Object Lifted from Egocentric Videos
- arxiv url: http://arxiv.org/abs/2602.22209v1
- Date: Wed, 25 Feb 2026 18:59:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.960212
- Title: WHOLE: World-Grounded Hand-Object Lifted from Egocentric Videos
- Title(参考訳): WHOLE:エゴセントリックな動画から世界各国のハンドオブジェクトをリフティング
- Authors: Yufei Ye, Jiaman Li, Ryan Rong, C. Karen Liu,
- Abstract要約: WHOLEは、エゴセントリックなビデオから世界空間における手と物体の動きをホログラムに再構築する手法である。
本研究は,手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手
この共同生成的再構成は、手とオブジェクトを別々に処理し、後処理するアプローチを大幅に上回る。
- 参考スコア(独自算出の注目度): 21.692312457166704
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Egocentric manipulation videos are highly challenging due to severe occlusions during interactions and frequent object entries and exits from the camera view as the person moves. Current methods typically focus on recovering either hand or object pose in isolation, but both struggle during interactions and fail to handle out-of-sight cases. Moreover, their independent predictions often lead to inconsistent hand-object relations. We introduce WHOLE, a method that holistically reconstructs hand and object motion in world space from egocentric videos given object templates. Our key insight is to learn a generative prior over hand-object motion to jointly reason about their interactions. At test time, the pretrained prior is guided to generate trajectories that conform to the video observations. This joint generative reconstruction substantially outperforms approaches that process hands and objects separately followed by post-processing. WHOLE achieves state-of-the-art performance on hand motion estimation, 6D object pose estimation, and their relative interaction reconstruction. Project website: https://judyye.github.io/whole-www
- Abstract(参考訳): エゴセントリックな操作ビデオは、対話中の激しい閉塞と、人が移動するときのカメラビューからの頻繁なオブジェクトエントリと出口のために、非常に難しい。
現在のメソッドは通常、手またはオブジェクトのポーズの分離に重点を置いているが、どちらも相互作用中に苦労し、監視外ケースの処理に失敗している。
さらに、それらの独立した予測は、しばしば矛盾した手物関係をもたらす。
本稿では,オブジェクトテンプレートを付加した自己中心型ビデオから,世界空間における手動と物体の動きを均等に再構成するWHOLEを紹介する。
我々の重要な洞察は、手動よりも先進的な動きを学習し、それらの相互作用を共同で推論することである。
テスト時には、事前訓練された前者は、ビデオ観察に適合する軌跡を生成するためにガイドされる。
この共同生成的再構成は、手とオブジェクトを別々に処理し、後処理するアプローチを大幅に上回る。
WHOLEは手動推定,6次元オブジェクトポーズ推定,および相対的相互作用再構成における最先端性能を実現する。
プロジェクトウェブサイト: https://judyye.github.io/whole-www
関連論文リスト
- ForeHOI: Feed-forward 3D Object Reconstruction from Daily Hand-Object Interaction Videos [22.436134664301473]
本稿では,モノクラーハンドオブジェクトインタラクションビデオから直接3次元オブジェクト形状を再構成するフィードフォワードモデルであるForeHOIを紹介する。
ForeHOIは、オブジェクト再構成における最先端のパフォーマンスを実現し、100倍のスピードアップで従来の手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2026-02-05T22:05:57Z) - Zero-shot Reconstruction of In-Scene Object Manipulation from Video [47.13702503259619]
モノクロRGBビデオからシーン内オブジェクト操作を再構築する問題に対処する最初のシステムを構築した。
不用意なシーン再構築、不明瞭な手・物体の深さ、物理的に妥当な相互作用の必要性により、これは困難である。
論文 参考訳(メタデータ) (2025-12-22T18:58:29Z) - Uni-Hand: Universal Hand Motion Forecasting in Egocentric Views [40.35520614736267]
マルチモーダル入力,多次元およびマルチターゲット予測パターン,マルチタスクの可利用性を考慮したユニバーサルハンドモーション予測フレームワークを提案する。
ヒトの頭と手の動きを同時に予測し、自我中心視における動きのシナジーを捉えるために、新しい二重枝拡散法が提案されている。
文献に下流タスク評価を取り入れた最初の試みとして,手の動き予測アルゴリズムの現実的適用性を評価するための新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2025-11-17T02:14:13Z) - Benchmarks and Challenges in Pose Estimation for Egocentric Hand Interactions with Objects [89.95728475983263]
ロボティクス、AR/VR、アクション認識、モーション生成といったタスクにおいて、自己中心的な視点からこのようなインタラクションを理解することが重要である。
我々は、AmblyHandsとARCTICデータセットに基づいたHANDS23チャレンジを、慎重に設計されたトレーニングとテストの分割に基づいて設計する。
提案手法の結果と近年のリーダーボードのベースラインに基づいて,3Dハンド(オブジェクト)再構成タスクの徹底的な解析を行う。
論文 参考訳(メタデータ) (2024-03-25T05:12:21Z) - HOLD: Category-agnostic 3D Reconstruction of Interacting Hands and
Objects from Video [70.11702620562889]
HOLD - 単分子インタラクションビデオから手とオブジェクトを共同で再構成する最初のカテゴリーに依存しない方法。
我々は,3次元手と物体を2次元画像から切り離すことができる構成的明瞭な暗黙モデルを開発した。
本手法は,3次元手オブジェクトアノテーションに頼らず,組込みと組込みの両面において,完全教師付きベースラインに優れる。
論文 参考訳(メタデータ) (2023-11-30T10:50:35Z) - GRIP: Generating Interaction Poses Using Spatial Cues and Latent Consistency [57.9920824261925]
手は器用で多用途なマニピュレータであり、人間が物体や環境とどのように相互作用するかの中心である。
現実的な手オブジェクトの相互作用をモデル化することは、コンピュータグラフィックス、コンピュータビジョン、混合現実の応用において重要である。
GRIPは、体と物体の3次元運動を入力として取り、物体の相互作用の前、中、後の両方の両手の現実的な動きを合成する学習ベースの手法である。
論文 参考訳(メタデータ) (2023-08-22T17:59:51Z) - Leveraging Photometric Consistency over Time for Sparsely Supervised
Hand-Object Reconstruction [118.21363599332493]
本稿では,ビデオ中のフレームの粗いサブセットに対してのみアノテーションが利用できる場合に,時間とともに光度整合性を活用する手法を提案する。
本モデルでは,ポーズを推定することにより,手や物体を3Dで共同で再構成するカラーイメージをエンドツーエンドに訓練する。
提案手法は,3次元手動画像再構成の精度向上に有効であることを示す。
論文 参考訳(メタデータ) (2020-04-28T12:03:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。