論文の概要: What's in your hands? 3D Reconstruction of Generic Objects in Hands
- arxiv url: http://arxiv.org/abs/2204.07153v1
- Date: Thu, 14 Apr 2022 17:59:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-15 13:59:46.654713
- Title: What's in your hands? 3D Reconstruction of Generic Objects in Hands
- Title(参考訳): 手に何がある?
手のジェネリック物体の3次元再構成
- Authors: Yufei Ye, Abhinav Gupta, Shubham Tulsiani
- Abstract要約: 我々の研究は、単一のRGB画像からハンドヘルドオブジェクトを再構築することを目的としている。
通常、既知の3Dテンプレートを仮定し、問題を3Dポーズ推定に還元する以前の作業とは対照的に、我々の作業は3Dテンプレートを知らずに汎用的なハンドヘルドオブジェクトを再構成する。
- 参考スコア(独自算出の注目度): 49.12461675219253
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Our work aims to reconstruct hand-held objects given a single RGB image. In
contrast to prior works that typically assume known 3D templates and reduce the
problem to 3D pose estimation, our work reconstructs generic hand-held object
without knowing their 3D templates. Our key insight is that hand articulation
is highly predictive of the object shape, and we propose an approach that
conditionally reconstructs the object based on the articulation and the visual
input. Given an image depicting a hand-held object, we first use off-the-shelf
systems to estimate the underlying hand pose and then infer the object shape in
a normalized hand-centric coordinate frame. We parameterized the object by
signed distance which are inferred by an implicit network which leverages the
information from both visual feature and articulation-aware coordinates to
process a query point. We perform experiments across three datasets and show
that our method consistently outperforms baselines and is able to reconstruct a
diverse set of objects. We analyze the benefits and robustness of explicit
articulation conditioning and also show that this allows the hand pose
estimation to further improve in test-time optimization.
- Abstract(参考訳): 我々の研究は、単一のRGB画像からハンドヘルドオブジェクトを再構築することを目的としている。
既知の3dテンプレートを想定し,3dポーズ推定に問題を低減させる先行研究とは対照的に,本研究は3dテンプレートを知らずに汎用ハンドヘルドオブジェクトを再構築する。
我々の重要な知見は,手による調音が物体形状を非常に予測し,調音と視覚入力に基づいて物体を条件付きで再構成する手法を提案することである。
ハンドヘルドオブジェクトを画像化した場合、まずオフザシェルフシステムを用いて手の動きを推定し、次に正規化された手中心座標フレームの物体形状を推測する。
視覚特徴と調音認識座標の両方の情報を利用してクエリポイントを処理する暗黙のネットワークによって推定される符号付き距離でオブジェクトをパラメータ化する。
3つのデータセットで実験を行い、この手法がベースラインを一貫して上回り、多様なオブジェクトの集合を再構築可能であることを示す。
明示的な調音条件付けの利点とロバスト性を解析し、手ポーズ推定がテスト時間最適化をさらに改善できることを示す。
関連論文リスト
- EasyHOI: Unleashing the Power of Large Models for Reconstructing Hand-Object Interactions in the Wild [79.71523320368388]
本研究の目的は,手動物体のインタラクションを単一視点画像から再構築することである。
まず、手ポーズとオブジェクト形状を推定する新しいパイプラインを設計する。
最初の再構築では、事前に誘導された最適化方式を採用する。
論文 参考訳(メタデータ) (2024-11-21T16:33:35Z) - Reconstructing Hand-Held Objects in 3D from Images and Videos [53.277402172488735]
モノクローナルなRGB映像が与えられると、時間とともに手持ちの物体の幾何学を3Dで再構築することを目指している。
1枚のRGB画像から手と物体の形状を共同で再構成するMCC-Hand-Object(MCC-HO)を提案する。
次に、GPT-4(V)を用いてテキストから3D生成モデルを作成し、画像中のオブジェクトにマッチする3Dオブジェクトモデルを検索する。
論文 参考訳(メタデータ) (2024-04-09T17:55:41Z) - HOLD: Category-agnostic 3D Reconstruction of Interacting Hands and
Objects from Video [70.11702620562889]
HOLD - 単分子インタラクションビデオから手とオブジェクトを共同で再構成する最初のカテゴリーに依存しない方法。
我々は,3次元手と物体を2次元画像から切り離すことができる構成的明瞭な暗黙モデルを開発した。
本手法は,3次元手オブジェクトアノテーションに頼らず,組込みと組込みの両面において,完全教師付きベースラインに優れる。
論文 参考訳(メタデータ) (2023-11-30T10:50:35Z) - ShapeGraFormer: GraFormer-Based Network for Hand-Object Reconstruction from a Single Depth Map [11.874184782686532]
そこで本研究では, 現実的な3次元物体形状に対する最初のアプローチを提案し, 一つの深度マップから復元する。
我々のパイプラインは、入力されたボキセル化深度に1対1のマッピングを持つ、ボキセル化ハンドオブジェクト形状も予測する。
さらに、手動オブジェクトの相互作用に基づいて再構成された形状を洗練する別のGraFormerコンポーネントを追加する影響を示す。
論文 参考訳(メタデータ) (2023-10-18T09:05:57Z) - SHOWMe: Benchmarking Object-agnostic Hand-Object 3D Reconstruction [13.417086460511696]
96本の動画からなるSHOWMeデータセットについて,実物と詳細な3Dテクスチャメッシュで注釈付けした。
我々は、手の動きがビデオシーケンス全体を通して一定である厳密な手オブジェクトのシナリオを考察する。
この仮定により、SHOWMeの画像シーケンスにサブミリメートル精度の基底3Dスキャンを登録できる。
論文 参考訳(メタデータ) (2023-09-19T16:48:29Z) - Learning Explicit Contact for Implicit Reconstruction of Hand-held
Objects from Monocular Images [59.49985837246644]
我々は,手持ちの物体を暗黙的に再構築する上で,明示的な方法で接触をモデル化する方法を示す。
まず,1つの画像から3次元手オブジェクトの接触を直接推定するサブタスクを提案する。
第2部では,ハンドメッシュ面から近傍の3次元空間へ推定された接触状態を拡散する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:59:26Z) - Object Wake-up: 3-D Object Reconstruction, Animation, and in-situ
Rendering from a Single Image [58.69732754597448]
椅子の写真があれば、椅子の3次元形状を抽出し、その可愛らしい調音や動きをアニメーション化し、元の画像空間でその場でレンダリングできるだろうか?
単一画像中の調音対象を抽出・操作するための自動アプローチを考案する。
論文 参考訳(メタデータ) (2021-08-05T16:20:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。