Fugu-MT 論文翻訳(概要): WHOLE: World-Grounded Hand-Object Lifted from Egocentric Videos

論文の概要: WHOLE: World-Grounded Hand-Object Lifted from Egocentric Videos

arxiv url: http://arxiv.org/abs/2602.22209v1
Date: Wed, 25 Feb 2026 18:59:10 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-26 18:19:16.960212
Title: WHOLE: World-Grounded Hand-Object Lifted from Egocentric Videos
Title（参考訳）: WHOLE:エゴセントリックな動画から世界各国のハンドオブジェクトをリフティング
Authors: Yufei Ye, Jiaman Li, Ryan Rong, C. Karen Liu,
Abstract要約: WHOLEは、エゴセントリックなビデオから世界空間における手と物体の動きをホログラムに再構築する手法である。本研究は,手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手この共同生成的再構成は、手とオブジェクトを別々に処理し、後処理するアプローチを大幅に上回る。
参考スコア（独自算出の注目度）: 21.692312457166704
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Egocentric manipulation videos are highly challenging due to severe occlusions during interactions and frequent object entries and exits from the camera view as the person moves. Current methods typically focus on recovering either hand or object pose in isolation, but both struggle during interactions and fail to handle out-of-sight cases. Moreover, their independent predictions often lead to inconsistent hand-object relations. We introduce WHOLE, a method that holistically reconstructs hand and object motion in world space from egocentric videos given object templates. Our key insight is to learn a generative prior over hand-object motion to jointly reason about their interactions. At test time, the pretrained prior is guided to generate trajectories that conform to the video observations. This joint generative reconstruction substantially outperforms approaches that process hands and objects separately followed by post-processing. WHOLE achieves state-of-the-art performance on hand motion estimation, 6D object pose estimation, and their relative interaction reconstruction. Project website: https://judyye.github.io/whole-www
Abstract（参考訳）: エゴセントリックな操作ビデオは、対話中の激しい閉塞と、人が移動するときのカメラビューからの頻繁なオブジェクトエントリと出口のために、非常に難しい。現在のメソッドは通常、手またはオブジェクトのポーズの分離に重点を置いているが、どちらも相互作用中に苦労し、監視外ケースの処理に失敗している。さらに、それらの独立した予測は、しばしば矛盾した手物関係をもたらす。本稿では,オブジェクトテンプレートを付加した自己中心型ビデオから,世界空間における手動と物体の動きを均等に再構成するWHOLEを紹介する。我々の重要な洞察は、手動よりも先進的な動きを学習し、それらの相互作用を共同で推論することである。テスト時には、事前訓練された前者は、ビデオ観察に適合する軌跡を生成するためにガイドされる。この共同生成的再構成は、手とオブジェクトを別々に処理し、後処理するアプローチを大幅に上回る。 WHOLEは手動推定,6次元オブジェクトポーズ推定,および相対的相互作用再構成における最先端性能を実現する。プロジェクトウェブサイト: https://judyye.github.io/whole-www

関連論文リスト

ForeHOI: Feed-forward 3D Object Reconstruction from Daily Hand-Object Interaction Videos [22.436134664301473]
本稿では,モノクラーハンドオブジェクトインタラクションビデオから直接3次元オブジェクト形状を再構成するフィードフォワードモデルであるForeHOIを紹介する。 ForeHOIは、オブジェクト再構成における最先端のパフォーマンスを実現し、100倍のスピードアップで従来の手法よりも大幅に優れていた。
論文参考訳（メタデータ） (2026-02-05T22:05:57Z)
EgoGrasp: World-Space Hand-Object Interaction Estimation from Egocentric Videos [25.047225764745978]
EgoGraspは,世界空間のハンドオブジェクトインタラクション(W-HOI)を,野生のダイナミックカメラを用いて,エゴセントリックなモノクロビデオから再構築する最初の方法である。実験では,W-HOI再建における最先端性能を実現する手法を実証した。
論文参考訳（メタデータ） (2026-01-03T03:08:48Z)
Zero-shot Reconstruction of In-Scene Object Manipulation from Video [47.13702503259619]
モノクロRGBビデオからシーン内オブジェクト操作を再構築する問題に対処する最初のシステムを構築した。不用意なシーン再構築、不明瞭な手・物体の深さ、物理的に妥当な相互作用の必要性により、これは困難である。
論文参考訳（メタデータ） (2025-12-22T18:58:29Z)
Uni-Hand: Universal Hand Motion Forecasting in Egocentric Views [40.35520614736267]
マルチモーダル入力,多次元およびマルチターゲット予測パターン,マルチタスクの可利用性を考慮したユニバーサルハンドモーション予測フレームワークを提案する。ヒトの頭と手の動きを同時に予測し、自我中心視における動きのシナジーを捉えるために、新しい二重枝拡散法が提案されている。文献に下流タスク評価を取り入れた最初の試みとして,手の動き予測アルゴリズムの現実的適用性を評価するための新しいベンチマークを構築した。
論文参考訳（メタデータ） (2025-11-17T02:14:13Z)
EgoLoc: A Generalizable Solution for Temporal Interaction Localization in Egocentric Videos [13.10069586920198]
自我中心の視覚における手動物体の相互作用の分析は、VR/ARアプリケーションと人間ロボットのポリシー伝達を促進する。 EgoLocと呼ばれる新しいゼロショットアプローチを提案し、エゴセントリックなビデオで手動接触と切り離しタイムスタンプをローカライズする。 EgoLocは、視覚言語モデルを利用して、コンタクト/セパレーション属性を特定し、特定のタイムスタンプをローカライズし、さらなる改善のためにクローズドループフィードバックを提供する。
論文参考訳（メタデータ） (2025-08-17T12:38:56Z)
Benchmarks and Challenges in Pose Estimation for Egocentric Hand Interactions with Objects [89.95728475983263]
ロボティクス、AR/VR、アクション認識、モーション生成といったタスクにおいて、自己中心的な視点からこのようなインタラクションを理解することが重要である。我々は、AmblyHandsとARCTICデータセットに基づいたHANDS23チャレンジを、慎重に設計されたトレーニングとテストの分割に基づいて設計する。提案手法の結果と近年のリーダーボードのベースラインに基づいて,3Dハンド(オブジェクト)再構成タスクの徹底的な解析を行う。
論文参考訳（メタデータ） (2024-03-25T05:12:21Z)
HOLD: Category-agnostic 3D Reconstruction of Interacting Hands and Objects from Video [70.11702620562889]
HOLD - 単分子インタラクションビデオから手とオブジェクトを共同で再構成する最初のカテゴリーに依存しない方法。我々は,3次元手と物体を2次元画像から切り離すことができる構成的明瞭な暗黙モデルを開発した。本手法は,3次元手オブジェクトアノテーションに頼らず,組込みと組込みの両面において,完全教師付きベースラインに優れる。
論文参考訳（メタデータ） (2023-11-30T10:50:35Z)
GRIP: Generating Interaction Poses Using Spatial Cues and Latent Consistency [57.9920824261925]
手は器用で多用途なマニピュレータであり、人間が物体や環境とどのように相互作用するかの中心である。現実的な手オブジェクトの相互作用をモデル化することは、コンピュータグラフィックス、コンピュータビジョン、混合現実の応用において重要である。 GRIPは、体と物体の3次元運動を入力として取り、物体の相互作用の前、中、後の両方の両手の現実的な動きを合成する学習ベースの手法である。
論文参考訳（メタデータ） (2023-08-22T17:59:51Z)
Full-Body Articulated Human-Object Interaction [61.01135739641217]
CHAIRSは16.2時間の多目的相互作用からなる大規模な動きキャプチャーされたf-AHOIデータセットである。 CHAIRSは、対話的なプロセス全体を通して、人間と明瞭なオブジェクトの両方の3Dメッシュを提供する。 HOIにおける幾何学的関係を学習することにより,人間のポーズ推定を利用した最初のモデルが考案された。
論文参考訳（メタデータ） (2022-12-20T19:50:54Z)
H2O: Two Hands Manipulating Objects for First Person Interaction Recognition [70.46638409156772]
両手操作対象のマーカーレス3Dアノテーションを用いて,エゴセントリックな対話認識のための包括的なフレームワークを提案する。本手法は,2つの手の3次元ポーズと操作対象の6次元ポーズのアノテーションと,それぞれのフレームのインタラクションラベルを生成する。我々のデータセットは、H2O (2 Hands and Objects)と呼ばれ、同期されたマルチビューRGB-D画像、対話ラベル、オブジェクトクラス、左右の手でのグラウンドトルース3Dポーズ、6Dオブジェクトポーズ、グラウンドトルースカメラポーズ、オブジェクトメッシュ、シーンポイントクラウドを提供する。
論文参考訳（メタデータ） (2021-04-22T17:10:42Z)
Leveraging Photometric Consistency over Time for Sparsely Supervised Hand-Object Reconstruction [118.21363599332493]
本稿では,ビデオ中のフレームの粗いサブセットに対してのみアノテーションが利用できる場合に,時間とともに光度整合性を活用する手法を提案する。本モデルでは,ポーズを推定することにより,手や物体を3Dで共同で再構成するカラーイメージをエンドツーエンドに訓練する。提案手法は,3次元手動画像再構成の精度向上に有効であることを示す。
論文参考訳（メタデータ） (2020-04-28T12:03:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。