論文の概要: Reconstructing Hand-Held Objects in 3D
- arxiv url: http://arxiv.org/abs/2404.06507v2
- Date: Wed, 10 Apr 2024 02:23:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-11 11:37:32.146574
- Title: Reconstructing Hand-Held Objects in 3D
- Title(参考訳): ハンドヘルド物体の3次元再構成
- Authors: Jane Wu, Georgios Pavlakos, Georgia Gkioxari, Jitendra Malik,
- Abstract要約: 本稿では,大規模言語/ビジョンモデルと3次元オブジェクトデータセットの最近のブレークスルーに基づくハンドヘルドオブジェクト再構築のパラダイムを提案する。
我々は、GPT-4(V)を用いて、画像中のオブジェクトにマッチする3次元オブジェクトモデルを検索し、そのモデルをネットワーク推論幾何に整合させる。
実験により、MCC-HOは実験室およびインターネットデータセット上で最先端のパフォーマンスを達成することが示された。
- 参考スコア(独自算出の注目度): 53.277402172488735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Objects manipulated by the hand (i.e., manipulanda) are particularly challenging to reconstruct from in-the-wild RGB images or videos. Not only does the hand occlude much of the object, but also the object is often only visible in a small number of image pixels. At the same time, two strong anchors emerge in this setting: (1) estimated 3D hands help disambiguate the location and scale of the object, and (2) the set of manipulanda is small relative to all possible objects. With these insights in mind, we present a scalable paradigm for handheld object reconstruction that builds on recent breakthroughs in large language/vision models and 3D object datasets. Our model, MCC-Hand-Object (MCC-HO), jointly reconstructs hand and object geometry given a single RGB image and inferred 3D hand as inputs. Subsequently, we use GPT-4(V) to retrieve a 3D object model that matches the object in the image and rigidly align the model to the network-inferred geometry; we call this alignment Retrieval-Augmented Reconstruction (RAR). Experiments demonstrate that MCC-HO achieves state-of-the-art performance on lab and Internet datasets, and we show how RAR can be used to automatically obtain 3D labels for in-the-wild images of hand-object interactions.
- Abstract(参考訳): 手によって操作される物体(つまりマニプラダ)は、特に、未使用のRGB画像やビデオから再構成することが困難である。
手が物体の多くを遮蔽するだけでなく、少数の画像ピクセルでしか見えないことが多い。
同時に、この2つの強力なアンカーが出現する:(1) 推定3次元手は物体の位置と規模を曖昧にし、(2) マニピュランダのセットは全ての可能な物体に対して小さい。
これらの知見を念頭に置いて,大規模言語/ビジョンモデルと3次元オブジェクトデータセットの最近のブレークスルーを基盤として,ハンドヘルドオブジェクト再構築のためのスケーラブルなパラダイムを提案する。
我々のモデルであるMCC-Hand-Object (MCC-HO) は、単一のRGB画像が与えられた手と物体の形状を共同で再構成し、入力として3Dハンドを推定する。
次に、GPT-4(V)を用いて、画像内のオブジェクトにマッチする3次元オブジェクトモデルを検索し、そのモデルをネットワーク推論幾何に厳密に整列させ、このアライメントをRetrieval-Augmented Reconstruction (RAR)と呼ぶ。
実験により,MCC-HOが実験室およびインターネットデータセット上での最先端性能を実証し,RARを用いて手動物体間相互作用の画像の3Dラベルを自動的に取得できることが示されている。
関連論文リスト
- HOLD: Category-agnostic 3D Reconstruction of Interacting Hands and
Objects from Video [70.11702620562889]
HOLD - 単分子インタラクションビデオから手とオブジェクトを共同で再構成する最初のカテゴリーに依存しない方法。
我々は,3次元手と物体を2次元画像から切り離すことができる構成的明瞭な暗黙モデルを開発した。
本手法は,3次元手オブジェクトアノテーションに頼らず,組込みと組込みの両面において,完全教師付きベースラインに優れる。
論文 参考訳(メタデータ) (2023-11-30T10:50:35Z) - SHOWMe: Benchmarking Object-agnostic Hand-Object 3D Reconstruction [13.417086460511696]
96本の動画からなるSHOWMeデータセットについて,実物と詳細な3Dテクスチャメッシュで注釈付けした。
我々は、手の動きがビデオシーケンス全体を通して一定である厳密な手オブジェクトのシナリオを考察する。
この仮定により、SHOWMeの画像シーケンスにサブミリメートル精度の基底3Dスキャンを登録できる。
論文 参考訳(メタデータ) (2023-09-19T16:48:29Z) - HandNeRF: Learning to Reconstruct Hand-Object Interaction Scene from a
Single RGB Image [41.580285338167315]
本稿では,1枚のRGB画像から3次元手オブジェクトシーンを再構成する前に,手オブジェクト間のインタラクションを学習する方法を提案する。
我々は手形状を用いて手と物体形状の相対的な構成を制約する。
そこで,HandNeRFは,手動による新たなグリップ構成のシーンを,同等の手法よりも高精度に再構築可能であることを示す。
論文 参考訳(メタデータ) (2023-09-14T17:42:08Z) - Iterative Superquadric Recomposition of 3D Objects from Multiple Views [77.53142165205283]
2次元ビューから直接3次元スーパークワッドリックを意味部品として用いたオブジェクトを再構成するフレームワークISCOを提案する。
我々のフレームワークは、再構成エラーが高い場合に、反復的に新しいスーパークワッドリックを追加します。
これは、野生の画像からでも、より正確な3D再構成を提供する。
論文 参考訳(メタデータ) (2023-09-05T10:21:37Z) - Learning Hand-Held Object Reconstruction from In-The-Wild Videos [19.16274394098004]
我々はObManデータセットから合成オブジェクトを用いてデータ駆動型3次元形状を学習する。
我々はこれらの間接的な3次元キューを用いて、単一のRGB画像から物体の3次元形状を予測する占有ネットワークを訓練する。
論文 参考訳(メタデータ) (2023-05-04T17:56:48Z) - Anything-3D: Towards Single-view Anything Reconstruction in the Wild [61.090129285205805]
本稿では,一連の視覚言語モデルとSegment-Anythingオブジェクトセグメンテーションモデルを組み合わせた方法論的フレームワークであるAnything-3Dを紹介する。
提案手法では、BLIPモデルを用いてテキスト記述を生成し、Segment-Anythingモデルを用いて関心対象を効果的に抽出し、テキスト・画像拡散モデルを用いて物体を神経放射場へ持ち上げる。
論文 参考訳(メタデータ) (2023-04-19T16:39:51Z) - What's in your hands? 3D Reconstruction of Generic Objects in Hands [49.12461675219253]
我々の研究は、単一のRGB画像からハンドヘルドオブジェクトを再構築することを目的としている。
通常、既知の3Dテンプレートを仮定し、問題を3Dポーズ推定に還元する以前の作業とは対照的に、我々の作業は3Dテンプレートを知らずに汎用的なハンドヘルドオブジェクトを再構成する。
論文 参考訳(メタデータ) (2022-04-14T17:59:02Z) - D3D-HOI: Dynamic 3D Human-Object Interactions from Videos [49.38319295373466]
本稿では,D3D-HOIについて紹介する。D3D-HOIは3次元オブジェクトのポーズ,形状,動きを,人間と物体の相互作用の時,地上の真理アノテーションを付加したモノクロビデオのデータセットである。
我々のデータセットは、様々な現実世界のシーンとカメラの視点から捉えた、いくつかの共通したオブジェクトで構成されている。
我々は、推定された3次元人間のポーズを利用して、物体の空間的レイアウトとダイナミクスをより正確に推定する。
論文 参考訳(メタデータ) (2021-08-19T00:49:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。