論文の概要: Learning Hand-Held Object Reconstruction from In-The-Wild Videos
- arxiv url: http://arxiv.org/abs/2305.03036v1
- Date: Thu, 4 May 2023 17:56:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-05 14:28:05.821833
- Title: Learning Hand-Held Object Reconstruction from In-The-Wild Videos
- Title(参考訳): 野生映像からのハンドヘルド物体復元の学習
- Authors: Aditya Prakash, Matthew Chang, Matthew Jin, Saurabh Gupta
- Abstract要約: 我々はObManデータセットから合成オブジェクトを用いてデータ駆動型3次元形状を学習する。
我々はこれらの間接的な3次元キューを用いて、単一のRGB画像から物体の3次元形状を予測する占有ネットワークを訓練する。
- 参考スコア(独自算出の注目度): 19.16274394098004
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prior works for reconstructing hand-held objects from a single image rely on
direct 3D shape supervision which is challenging to gather in real world at
scale. Consequently, these approaches do not generalize well when presented
with novel objects in in-the-wild settings. While 3D supervision is a major
bottleneck, there is an abundance of in-the-wild raw video data showing
hand-object interactions. In this paper, we automatically extract 3D
supervision (via multiview 2D supervision) from such raw video data to scale up
the learning of models for hand-held object reconstruction. This requires
tackling two key challenges: unknown camera pose and occlusion. For the former,
we use hand pose (predicted from existing techniques, e.g. FrankMocap) as a
proxy for object pose. For the latter, we learn data-driven 3D shape priors
using synthetic objects from the ObMan dataset. We use these indirect 3D cues
to train occupancy networks that predict the 3D shape of objects from a single
RGB image. Our experiments on the MOW and HO3D datasets show the effectiveness
of these supervisory signals at predicting the 3D shape for real-world
hand-held objects without any direct real-world 3D supervision.
- Abstract(参考訳): 1枚の画像から手持ちの物体を復元するための先行研究は、現実世界で大規模に収集することが難しい直接3d形状の監督に依存している。
したがって、これらのアプローチは、イン・ザ・ワイルドの設定で新しいオブジェクトが提示されるとうまく一般化しない。
3d監督は大きなボトルネックであるが、手とオブジェクトの相互作用を示す生の動画データが豊富にある。
本稿では,このような生ビデオデータから(マルチビュー2Dによる)3D監視を自動的に抽出し,ハンドヘルドオブジェクト再構築のためのモデルの学習を拡大する。
これは、未知のカメラポーズとオクルージョンという、2つの重要な課題に取り組む必要がある。
前者に対しては、オブジェクトポーズのプロキシとしてハンドポーズ(FrankMocapなど、既存のテクニックから予測される)を使用します。
後者では,ObManデータセットから合成オブジェクトを用いて,データ駆動型3D形状の事前学習を行う。
rgb画像から物体の3d形状を予測する、占有ネットワークのトレーニングに、これらの間接的3d手がかりを用いています。
このMOWおよびHO3Dデータセットを用いた実験により,実世界の3Dを直接監督することなく実世界のハンドヘルドオブジェクトの3次元形状を予測できることを示す。
関連論文リスト
- HOLD: Category-agnostic 3D Reconstruction of Interacting Hands and
Objects from Video [70.11702620562889]
HOLD - 単分子インタラクションビデオから手とオブジェクトを共同で再構成する最初のカテゴリーに依存しない方法。
我々は,3次元手と物体を2次元画像から切り離すことができる構成的明瞭な暗黙モデルを開発した。
本手法は,3次元手オブジェクトアノテーションに頼らず,組込みと組込みの両面において,完全教師付きベースラインに優れる。
論文 参考訳(メタデータ) (2023-11-30T10:50:35Z) - Decaf: Monocular Deformation Capture for Face and Hand Interactions [77.75726740605748]
本稿では,単眼のRGBビデオから人間の顔と対話する人間の手を3Dで追跡する手法を提案する。
動作中の非剛性面の変形を誘発する定形物体として手をモデル化する。
本手法は,マーカーレスマルチビューカメラシステムで取得した現実的な顔変形を伴う手動・インタラクションキャプチャーデータセットに頼っている。
論文 参考訳(メタデータ) (2023-09-28T17:59:51Z) - D3D-HOI: Dynamic 3D Human-Object Interactions from Videos [49.38319295373466]
本稿では,D3D-HOIについて紹介する。D3D-HOIは3次元オブジェクトのポーズ,形状,動きを,人間と物体の相互作用の時,地上の真理アノテーションを付加したモノクロビデオのデータセットである。
我々のデータセットは、様々な現実世界のシーンとカメラの視点から捉えた、いくつかの共通したオブジェクトで構成されている。
我々は、推定された3次元人間のポーズを利用して、物体の空間的レイアウトとダイナミクスをより正確に推定する。
論文 参考訳(メタデータ) (2021-08-19T00:49:01Z) - Sparse Pose Trajectory Completion [87.31270669154452]
サンプルの少ないビューにのみオブジェクトが出現するデータセットを使用しても学習する方法を提案する。
これはクロスモーダルポーズ軌道伝達機構によって実現される。
この手法はPix3DおよびShapeNetデータセット上で評価される。
論文 参考訳(メタデータ) (2021-05-01T00:07:21Z) - Model-based 3D Hand Reconstruction via Self-Supervised Learning [72.0817813032385]
シングルビューのRGB画像から3Dハンドを再構成することは、様々な手構成と深さのあいまいさのために困難である。
ポーズ, 形状, テクスチャ, カメラ視点を共同で推定できる, 自己教師型3Dハンド再構成ネットワークであるS2HANDを提案する。
初めて手動アノテーションを使わずに、正確な3D手の再構築ネットワークを訓練できることを実証しました。
論文 参考訳(メタデータ) (2021-03-22T10:12:43Z) - 3D Object Recognition By Corresponding and Quantizing Neural 3D Scene
Representations [29.61554189447989]
本稿では,RGB-D画像からオブジェクトを検出し,その3Dポーズを推測するシステムを提案する。
多くの既存のシステムはオブジェクトを識別し、3Dのポーズを推測できるが、それらは人間のラベルや3Dアノテーションに大きく依存している。
論文 参考訳(メタデータ) (2020-10-30T13:56:09Z) - Unsupervised object-centric video generation and decomposition in 3D [36.08064849807464]
本研究では,複数の3Dオブジェクトと3D背景を持つシーンを移動しながら映像を映像としてモデル化することを提案する。
我々のモデルは、監督なしに単眼ビデオから訓練されるが、複数の動く物体を含むコヒーレントな3Dシーンを生成することを学ぶ。
論文 参考訳(メタデータ) (2020-07-07T18:01:29Z) - From Image Collections to Point Clouds with Self-supervised Shape and
Pose Networks [53.71440550507745]
2次元画像から3Dモデルを再構成することは、コンピュータビジョンの基本的な問題の一つである。
本研究では,1枚の画像から3次元オブジェクトを再構成する深層学習手法を提案する。
我々は,3次元点雲の再構成と推定ネットワークの自己教師方式の両方を学習する。
論文 参考訳(メタデータ) (2020-05-05T04:25:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。