論文の概要: Shape and Viewpoint without Keypoints
- arxiv url: http://arxiv.org/abs/2007.10982v1
- Date: Tue, 21 Jul 2020 17:58:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 04:38:09.121767
- Title: Shape and Viewpoint without Keypoints
- Title(参考訳): キーポイントのない形状と視点
- Authors: Shubham Goel, Angjoo Kanazawa, Jitendra Malik
- Abstract要約: 本研究では,1枚の画像から3次元形状,ポーズ,テクスチャを復元する学習フレームワークを提案する。
我々は,3次元形状,マルチビュー,カメラ視点,キーポイントの監督なしに画像収集を訓練した。
我々は、最先端のカメラ予測結果を取得し、オブジェクト間の多様な形状やテクスチャを予測することを学べることを示す。
- 参考スコア(独自算出の注目度): 63.26977130704171
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a learning framework that learns to recover the 3D shape, pose and
texture from a single image, trained on an image collection without any ground
truth 3D shape, multi-view, camera viewpoints or keypoint supervision. We
approach this highly under-constrained problem in a "analysis by synthesis"
framework where the goal is to predict the likely shape, texture and camera
viewpoint that could produce the image with various learned category-specific
priors. Our particular contribution in this paper is a representation of the
distribution over cameras, which we call "camera-multiplex". Instead of picking
a point estimate, we maintain a set of camera hypotheses that are optimized
during training to best explain the image given the current shape and texture.
We call our approach Unsupervised Category-Specific Mesh Reconstruction
(U-CMR), and present qualitative and quantitative results on CUB, Pascal 3D and
new web-scraped datasets. We obtain state-of-the-art camera prediction results
and show that we can learn to predict diverse shapes and textures across
objects using an image collection without any keypoint annotations or 3D ground
truth. Project page: https://shubham-goel.github.io/ucmr
- Abstract(参考訳): 本稿では,1つの画像から3次元形状,ポーズ,テクスチャを復元し,基底真理3次元形状,マルチビュー,カメラ視点,キーポイント監督を伴わない画像収集で学習する学習フレームワークを提案する。
そこでは, 画像の形状, テクスチャ, カメラの視点を予測し, 様々なカテゴリに特化して画像を生成する「合成による分析」フレームワークにおいて, 極めて制約の少ない問題にアプローチする。
この論文における我々の貢献は、カメラ上の分布の表現であり、これを「カメラマルチプレックス」と呼ぶ。
ポイント推定を選択する代わりに、トレーニング中に最適化された一連のカメラ仮説を維持して、現在の形状とテクスチャに基づいて画像を説明する。
われわれのアプローチはUnsupervised Category-Specific Mesh Reconstruction (U-CMR)と呼ばれ、CUB、Pascal 3Dおよび新しいWebスクラッドデータセットの質的かつ定量的な結果を示す。
我々は最先端のカメラ予測結果を取得し、キーポイントアノテーションや3D地上真実を使わずに画像収集を用いてオブジェクト間の多様な形状やテクスチャを予測できることを示す。
プロジェクトページ: https://shubham-goel.github.io/ucmr
関連論文リスト
- Unsupervised Learning of Category-Level 3D Pose from Object-Centric Videos [15.532504015622159]
カテゴリーレベルの3Dポーズ推定は、コンピュータビジョンとロボット工学において基本的に重要な問題である。
カテゴリーレベルの3Dポーズを,カジュアルに撮られた対象中心の動画からのみ推定する学習の課題に取り組む。
論文 参考訳(メタデータ) (2024-07-05T09:43:05Z) - Mitigating Perspective Distortion-induced Shape Ambiguity in Image Crops [17.074716363691294]
単一の画像から3Dを予測するためのモデルは、しばしば関心の対象の周りの作物と連動し、カメラの視野内の物体の位置を無視する。
内在性を考慮した位置推定法を提案する。
ベンチマーク(KPE)は、画像とカメラの形状における作物の位置に関する情報を組み込んだベンチマークである。
NYUの深度予測、KITTIとnuScenesの3Dオブジェクト検出、ARCTICの3Dオブジェクトの予測という3つの人気のある3D画像ベンチマークの実験は、KPEの利点を示している。
論文 参考訳(メタデータ) (2023-12-11T18:28:55Z) - PF-LRM: Pose-Free Large Reconstruction Model for Joint Pose and Shape
Prediction [77.89935657608926]
画像から3Dオブジェクトを再構成するためのPF-LRM(Pose-Free Large Restruction Model)を提案する。
PF-LRMは1つのA100 GPU上で1.3秒で相対カメラのポーズを同時に推定する。
論文 参考訳(メタデータ) (2023-11-20T18:57:55Z) - 3D Surface Reconstruction in the Wild by Deforming Shape Priors from
Synthetic Data [24.97027425606138]
1枚の画像から被写体の3次元表面を再構築することは難しい問題である。
本稿では,1枚の画像から3次元合成とオブジェクトポーズ推定を行う新しい手法を提案する。
提案手法は,複数の実世界のデータセットにまたがって,最先端の再構築性能を実現する。
論文 参考訳(メタデータ) (2023-02-24T20:37:27Z) - Pixel2Mesh++: 3D Mesh Generation and Refinement from Multi-View Images [82.32776379815712]
カメラポーズの有無にかかわらず、少数のカラー画像から3次元メッシュ表現における形状生成の問題について検討する。
我々は,グラフ畳み込みネットワークを用いたクロスビュー情報を活用することにより,形状品質をさらに向上する。
我々のモデルは初期メッシュの品質とカメラポーズの誤差に頑健であり、テスト時間最適化のための微分関数と組み合わせることができる。
論文 参考訳(メタデータ) (2022-04-21T03:42:31Z) - Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using
Deep Shape Priors [69.02332607843569]
PriSMONetは、単一画像から多目的3Dシーンの分解と表現を学習するための新しいアプローチである。
リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。
我々は,3次元シーンレイアウトの推測におけるモデルの精度を評価し,その生成能力を実証し,実画像への一般化を評価し,学習した表現の利点を指摘する。
論文 参考訳(メタデータ) (2020-10-08T14:49:23Z) - From Image Collections to Point Clouds with Self-supervised Shape and
Pose Networks [53.71440550507745]
2次元画像から3Dモデルを再構成することは、コンピュータビジョンの基本的な問題の一つである。
本研究では,1枚の画像から3次元オブジェクトを再構成する深層学習手法を提案する。
我々は,3次元点雲の再構成と推定ネットワークの自己教師方式の両方を学習する。
論文 参考訳(メタデータ) (2020-05-05T04:25:16Z) - Self-supervised Single-view 3D Reconstruction via Semantic Consistency [142.71430568330172]
対象物の形状, テクスチャ, カメラポーズを予測できる, 自己監督型, 単視点3D再構成モデルを学習する。
提案手法では,手動で注釈付けしたキーポイント,オブジェクトのマルチビューイメージ,あるいは事前の3Dテンプレートなど,3Dの監督を必要としない。
論文 参考訳(メタデータ) (2020-03-13T20:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。