論文の概要: Learning Hand-Held Object Reconstruction from In-The-Wild Videos
- arxiv url: http://arxiv.org/abs/2305.03036v1
- Date: Thu, 4 May 2023 17:56:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-05 14:28:05.821833
- Title: Learning Hand-Held Object Reconstruction from In-The-Wild Videos
- Title(参考訳): 野生映像からのハンドヘルド物体復元の学習
- Authors: Aditya Prakash, Matthew Chang, Matthew Jin, Saurabh Gupta
- Abstract要約: 我々はObManデータセットから合成オブジェクトを用いてデータ駆動型3次元形状を学習する。
我々はこれらの間接的な3次元キューを用いて、単一のRGB画像から物体の3次元形状を予測する占有ネットワークを訓練する。
- 参考スコア(独自算出の注目度): 19.16274394098004
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prior works for reconstructing hand-held objects from a single image rely on
direct 3D shape supervision which is challenging to gather in real world at
scale. Consequently, these approaches do not generalize well when presented
with novel objects in in-the-wild settings. While 3D supervision is a major
bottleneck, there is an abundance of in-the-wild raw video data showing
hand-object interactions. In this paper, we automatically extract 3D
supervision (via multiview 2D supervision) from such raw video data to scale up
the learning of models for hand-held object reconstruction. This requires
tackling two key challenges: unknown camera pose and occlusion. For the former,
we use hand pose (predicted from existing techniques, e.g. FrankMocap) as a
proxy for object pose. For the latter, we learn data-driven 3D shape priors
using synthetic objects from the ObMan dataset. We use these indirect 3D cues
to train occupancy networks that predict the 3D shape of objects from a single
RGB image. Our experiments on the MOW and HO3D datasets show the effectiveness
of these supervisory signals at predicting the 3D shape for real-world
hand-held objects without any direct real-world 3D supervision.
- Abstract(参考訳): 1枚の画像から手持ちの物体を復元するための先行研究は、現実世界で大規模に収集することが難しい直接3d形状の監督に依存している。
したがって、これらのアプローチは、イン・ザ・ワイルドの設定で新しいオブジェクトが提示されるとうまく一般化しない。
3d監督は大きなボトルネックであるが、手とオブジェクトの相互作用を示す生の動画データが豊富にある。
本稿では,このような生ビデオデータから(マルチビュー2Dによる)3D監視を自動的に抽出し,ハンドヘルドオブジェクト再構築のためのモデルの学習を拡大する。
これは、未知のカメラポーズとオクルージョンという、2つの重要な課題に取り組む必要がある。
前者に対しては、オブジェクトポーズのプロキシとしてハンドポーズ(FrankMocapなど、既存のテクニックから予測される)を使用します。
後者では,ObManデータセットから合成オブジェクトを用いて,データ駆動型3D形状の事前学習を行う。
rgb画像から物体の3d形状を予測する、占有ネットワークのトレーニングに、これらの間接的3d手がかりを用いています。
このMOWおよびHO3Dデータセットを用いた実験により,実世界の3Dを直接監督することなく実世界のハンドヘルドオブジェクトの3次元形状を予測できることを示す。
関連論文リスト
- ImageNet3D: Towards General-Purpose Object-Level 3D Understanding [20.837297477080945]
汎用オブジェクトレベルの3D理解のための大規模データセットであるImageNet3Dを提案する。
ImageNet3Dは、ImageNetデータセットから2Dバウンディングボックス、3Dポーズ、3D位置アノテーション、3D情報でインターリーブされた画像キャプションを含む200のカテゴリを追加している。
我々は,標準分類とポーズ推定に加えて,オブジェクトレベルの3D認識とオープン語彙のポーズ推定という2つの新しいタスクを検討する。
論文 参考訳(メタデータ) (2024-06-13T22:44:26Z) - Reconstructing Hand-Held Objects in 3D from Images and Videos [53.277402172488735]
モノクローナルなRGB映像が与えられると、時間とともに手持ちの物体の幾何学を3Dで再構築することを目指している。
1枚のRGB画像から手と物体の形状を共同で再構成するMCC-Hand-Object(MCC-HO)を提案する。
次に、GPT-4(V)を用いてテキストから3D生成モデルを作成し、画像中のオブジェクトにマッチする3Dオブジェクトモデルを検索する。
論文 参考訳(メタデータ) (2024-04-09T17:55:41Z) - ComboVerse: Compositional 3D Assets Creation Using Spatially-Aware Diffusion Guidance [76.7746870349809]
複雑な構成で高品質な3Dアセットを生成する3D生成フレームワークであるComboVerseについて,複数のモデルを組み合わせることを学習して紹介する。
提案手法は,標準スコア蒸留法と比較して,物体の空間的アライメントを重視している。
論文 参考訳(メタデータ) (2024-03-19T03:39:43Z) - Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。
具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。
これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2024-03-14T07:39:59Z) - MobileBrick: Building LEGO for 3D Reconstruction on Mobile Devices [78.20154723650333]
高品質な3次元地下構造は3次元物体再構成評価に不可欠である。
本稿では,モバイルデバイスを用いた新しいマルチビューRGBDデータセットを提案する。
我々は,ハイエンド3Dスキャナーを使わずに,精密な3次元地下構造が得られる。
論文 参考訳(メタデータ) (2023-03-03T14:02:50Z) - D3D-HOI: Dynamic 3D Human-Object Interactions from Videos [49.38319295373466]
本稿では,D3D-HOIについて紹介する。D3D-HOIは3次元オブジェクトのポーズ,形状,動きを,人間と物体の相互作用の時,地上の真理アノテーションを付加したモノクロビデオのデータセットである。
我々のデータセットは、様々な現実世界のシーンとカメラの視点から捉えた、いくつかの共通したオブジェクトで構成されている。
我々は、推定された3次元人間のポーズを利用して、物体の空間的レイアウトとダイナミクスをより正確に推定する。
論文 参考訳(メタデータ) (2021-08-19T00:49:01Z) - Unsupervised object-centric video generation and decomposition in 3D [36.08064849807464]
本研究では,複数の3Dオブジェクトと3D背景を持つシーンを移動しながら映像を映像としてモデル化することを提案する。
我々のモデルは、監督なしに単眼ビデオから訓練されるが、複数の動く物体を含むコヒーレントな3Dシーンを生成することを学ぶ。
論文 参考訳(メタデータ) (2020-07-07T18:01:29Z) - From Image Collections to Point Clouds with Self-supervised Shape and
Pose Networks [53.71440550507745]
2次元画像から3Dモデルを再構成することは、コンピュータビジョンの基本的な問題の一つである。
本研究では,1枚の画像から3次元オブジェクトを再構成する深層学習手法を提案する。
我々は,3次元点雲の再構成と推定ネットワークの自己教師方式の両方を学習する。
論文 参考訳(メタデータ) (2020-05-05T04:25:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。