論文の概要: Reconstructing Objects along Hand Interaction Timelines in Egocentric Video
- arxiv url: http://arxiv.org/abs/2512.07394v1
- Date: Mon, 08 Dec 2025 10:26:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.838963
- Title: Reconstructing Objects along Hand Interaction Timelines in Egocentric Video
- Title(参考訳): エゴセントリックビデオにおけるハンドインタラクションの時間線に沿って物体を再構成する
- Authors: Zhifan Zhu, Siddhant Bansal, Shashank Tripathi, Dima Damen,
- Abstract要約: ハンドインタラクションタイムライン(ROHIT)に沿ってオブジェクトを再構成するタスクについて紹介する。
HITでは、オブジェクトは最初にシーンに対して静的で、次に接触後に手元に保持され、そこでそのポーズが変化する。
我々は、これらのポーズ制約をHIT上でモデル化し、HITに沿ってオブジェクトのポーズを伝播させることにより、より優れた再構成を可能にすることを提案する。
提案課題であるROHITを,HOT3DとEPIC-Kitchensの2つのエゴセントリックなデータセットで評価した。
- 参考スコア(独自算出の注目度): 25.20187873508316
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce the task of Reconstructing Objects along Hand Interaction Timelines (ROHIT). We first define the Hand Interaction Timeline (HIT) from a rigid object's perspective. In a HIT, an object is first static relative to the scene, then is held in hand following contact, where its pose changes. This is usually followed by a firm grip during use, before it is released to be static again w.r.t. to the scene. We model these pose constraints over the HIT, and propose to propagate the object's pose along the HIT enabling superior reconstruction using our proposed Constrained Optimisation and Propagation (COP) framework. Importantly, we focus on timelines with stable grasps - i.e. where the hand is stably holding an object, effectively maintaining constant contact during use. This allows us to efficiently annotate, study, and evaluate object reconstruction in videos without 3D ground truth. We evaluate our proposed task, ROHIT, over two egocentric datasets, HOT3D and in-the-wild EPIC-Kitchens. In HOT3D, we curate 1.2K clips of stable grasps. In EPIC-Kitchens, we annotate 2.4K clips of stable grasps including 390 object instances across 9 categories from videos of daily interactions in 141 environments. Without 3D ground truth, we utilise 2D projection error to assess the reconstruction. Quantitatively, COP improves stable grasp reconstruction by 6.2-11.3% and HIT reconstruction by up to 24.5% with constrained pose propagation.
- Abstract(参考訳): ハンドインタラクションタイムライン(ROHIT)に沿ってオブジェクトを再構成する作業を紹介する。
まず、厳密なオブジェクトの観点からハンドインタラクションタイムライン(HIT)を定義します。
HITでは、オブジェクトは最初にシーンに対して静的で、次に接触後に手元に保持され、そこでそのポーズが変化する。
これは通常、使用中にしっかりと握り、その後、シーンに再び静的になるように解放される。
我々は、これらのポーズ制約をHIT上でモデル化し、提案した制約付き最適化・伝搬(COP)フレームワークを用いて、HITに沿ってオブジェクトのポーズを伝播させることを提案する。
重要なことは、安定な握力を持つタイムライン、すなわち、手が安定してオブジェクトを保持し、使用中の一定の接触を効果的に維持している時間に焦点を合わせることである。
これにより、3D地上の真実を示さずに、ビデオ中のオブジェクトのアノテート、研究、評価を効率的に行うことができる。
提案課題であるROHITを,HOT3DとEPIC-Kitchensの2つのエゴセントリックなデータセットで評価した。
HOT3Dでは、安定なグリップの1.2Kクリップをキュレートする。
EPIC-Kitchensでは、141環境での日々の対話のビデオから、9つのカテゴリにわたる390のオブジェクトインスタンスを含む安定した把握の2.4Kクリップを注釈付けする。
提案手法では, 3次元的真実がなければ, 2次元投影誤差を利用して再現性を評価する。
COPは安定な握力再建を6.2-11.3%改善し、HIT再建を最大24.5%改善する。
関連論文リスト
- EasyHOI: Unleashing the Power of Large Models for Reconstructing Hand-Object Interactions in the Wild [79.71523320368388]
本研究の目的は,手動物体のインタラクションを単一視点画像から再構築することである。
まず、手ポーズとオブジェクト形状を推定する新しいパイプラインを設計する。
最初の再構築では、事前に誘導された最適化方式を採用する。
論文 参考訳(メタデータ) (2024-11-21T16:33:35Z) - Get a Grip: Reconstructing Hand-Object Stable Grasps in Egocentric Videos [23.060926173268605]
我々は,手と物体の間の接触領域が安定であることの直感に基づいて,安定なグリップ定義を開発する。
3D ARCTICデータセットを解析することにより、安定なつかみ時間を特定し、安定なつかみの物体が単一の自由度(1-DoF)内で動くことを示す。
我々は、安定したグリップの2.4Kクリップをラベル付けすることで、その知識をWildのビデオに拡張する。
論文 参考訳(メタデータ) (2023-12-25T13:12:36Z) - HOLD: Category-agnostic 3D Reconstruction of Interacting Hands and
Objects from Video [70.11702620562889]
HOLD - 単分子インタラクションビデオから手とオブジェクトを共同で再構成する最初のカテゴリーに依存しない方法。
我々は,3次元手と物体を2次元画像から切り離すことができる構成的明瞭な暗黙モデルを開発した。
本手法は,3次元手オブジェクトアノテーションに頼らず,組込みと組込みの両面において,完全教師付きベースラインに優れる。
論文 参考訳(メタデータ) (2023-11-30T10:50:35Z) - TOCH: Spatio-Temporal Object-to-Hand Correspondence for Motion
Refinement [42.3418874174372]
そこで本研究では,データを用いた不正確な3次元手オブジェクトインタラクションシーケンスの精細化手法TOCHを提案する。
時間分解オートエンコーダを用いた可塑性TOCH場の潜在多様体を学習する。
実験により、TOCHは最先端の3Dハンドオブジェクトインタラクションモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-05-16T20:41:45Z) - What's in your hands? 3D Reconstruction of Generic Objects in Hands [49.12461675219253]
我々の研究は、単一のRGB画像からハンドヘルドオブジェクトを再構築することを目的としている。
通常、既知の3Dテンプレートを仮定し、問題を3Dポーズ推定に還元する以前の作業とは対照的に、我々の作業は3Dテンプレートを知らずに汎用的なハンドヘルドオブジェクトを再構成する。
論文 参考訳(メタデータ) (2022-04-14T17:59:02Z) - Leveraging Photometric Consistency over Time for Sparsely Supervised
Hand-Object Reconstruction [118.21363599332493]
本稿では,ビデオ中のフレームの粗いサブセットに対してのみアノテーションが利用できる場合に,時間とともに光度整合性を活用する手法を提案する。
本モデルでは,ポーズを推定することにより,手や物体を3Dで共同で再構成するカラーイメージをエンドツーエンドに訓練する。
提案手法は,3次元手動画像再構成の精度向上に有効であることを示す。
論文 参考訳(メタデータ) (2020-04-28T12:03:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。