論文の概要: Implicit Mesh Reconstruction from Unannotated Image Collections
- arxiv url: http://arxiv.org/abs/2007.08504v1
- Date: Thu, 16 Jul 2020 17:55:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 23:33:10.135843
- Title: Implicit Mesh Reconstruction from Unannotated Image Collections
- Title(参考訳): 無注画像コレクションからの暗黙的メッシュ再構成
- Authors: Shubham Tulsiani, Nilesh Kulkarni, Abhinav Gupta
- Abstract要約: 本稿では,1枚のRGB画像から3次元形状,テクスチャ,カメラのポーズを推定する手法を提案する。
この形状を画像条件付暗黙関数として表現し、球面を予測メッシュのそれに変換するとともに、対応するテクスチャを予測する。
- 参考スコア(独自算出の注目度): 48.85604987196472
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an approach to infer the 3D shape, texture, and camera pose for an
object from a single RGB image, using only category-level image collections
with foreground masks as supervision. We represent the shape as an
image-conditioned implicit function that transforms the surface of a sphere to
that of the predicted mesh, while additionally predicting the corresponding
texture. To derive supervisory signal for learning, we enforce that: a) our
predictions when rendered should explain the available image evidence, and b)
the inferred 3D structure should be geometrically consistent with learned pixel
to surface mappings. We empirically show that our approach improves over prior
work that leverages similar supervision, and in fact performs competitively to
methods that use stronger supervision. Finally, as our method enables learning
with limited supervision, we qualitatively demonstrate its applicability over a
set of about 30 object categories.
- Abstract(参考訳): 本稿では,前景マスクを用いたカテゴリレベルの画像収集のみを監督として,単一のrgb画像から物体の3次元形状,テクスチャ,カメラポーズを推定する手法を提案する。
この形状を画像条件付暗黙関数として表現し、球面を予測メッシュの表面に変換するとともに、対応するテクスチャを予測する。
学習のための監視シグナルを導出するために、我々は次のように実施する。
a) レンダリング時の予測は、利用可能な画像証拠を説明し、
b) 推定された3次元構造は、学習した画素と表面マッピングとの幾何学的整合性を有するべきである。
我々は、我々のアプローチが、同様の監督を利用する以前の作業よりも改善され、実際、より強力な監督を利用する手法と競争的に機能することを示す。
最後に,本手法が限定的な指導力で学習を可能にするため,約30の対象カテゴリに対して,その適用性を質的に実証する。
関連論文リスト
- Multiview Scene Graph [7.460438046915524]
適切なシーン表現は、空間知性の追求の中心である。
未提示画像からマルチビューシーングラフ(MSG)を構築することを提案する。
MSGは、場所とオブジェクトノードを相互接続したシーンをトポロジ的に表現する。
論文 参考訳(メタデータ) (2024-10-15T02:04:05Z) - 3DMiner: Discovering Shapes from Large-Scale Unannotated Image Datasets [34.610546020800236]
3DMinerは、挑戦的なデータセットから3D形状をマイニングするためのパイプラインである。
本手法は最先端の教師なし3次元再構成技術よりもはるかに優れた結果が得られる。
LAION-5Bデータセットから得られる画像の形状を再構成することにより,3DMinerを組込みデータに適用する方法を示す。
論文 参考訳(メタデータ) (2023-10-29T23:08:19Z) - Self-Supervised Image Representation Learning with Geometric Set
Consistency [50.12720780102395]
本稿では,3次元幾何整合性に基づく自己教師付き画像表現学習法を提案する。
具体的には、画像ビュー内の特徴整合性を強化するために、コントラスト学習フレームワークに3次元幾何学的整合性を導入する。
論文 参考訳(メタデータ) (2022-03-29T08:57:33Z) - Learnable Triangulation for Deep Learning-based 3D Reconstruction of
Objects of Arbitrary Topology from Single RGB Images [12.693545159861857]
モノクロ画像から3次元物体を再構成する深層強化学習手法を提案する。
提案手法は, 視覚的品質, 再構成精度, 計算時間において, 最先端技術よりも優れる。
論文 参考訳(メタデータ) (2021-09-24T09:44:22Z) - DONet: Learning Category-Level 6D Object Pose and Size Estimation from
Depth Observation [53.55300278592281]
単一深度画像からカテゴリレベルの6次元オブジェクト・ポースとサイズ推定(COPSE)を提案する。
筆者らのフレームワークは,深度チャネルのみの物体のリッチな幾何学的情報に基づいて推論を行う。
我々のフレームワークは、ラベル付き現実世界の画像を必要とする最先端のアプローチと競合する。
論文 参考訳(メタデータ) (2021-06-27T10:41:50Z) - Shelf-Supervised Mesh Prediction in the Wild [54.01373263260449]
本研究では,物体の3次元形状とポーズを1つの画像から推定する学習手法を提案する。
まず、カメラのポーズとともに、標準フレーム内の体積表現を推定する。
粗い体積予測はメッシュベースの表現に変換され、予測されたカメラフレームでさらに洗練される。
論文 参考訳(メタデータ) (2021-02-11T18:57:10Z) - Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using
Deep Shape Priors [69.02332607843569]
PriSMONetは、単一画像から多目的3Dシーンの分解と表現を学習するための新しいアプローチである。
リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。
我々は,3次元シーンレイアウトの推測におけるモデルの精度を評価し,その生成能力を実証し,実画像への一般化を評価し,学習した表現の利点を指摘する。
論文 参考訳(メタデータ) (2020-10-08T14:49:23Z) - Shape and Viewpoint without Keypoints [63.26977130704171]
本研究では,1枚の画像から3次元形状,ポーズ,テクスチャを復元する学習フレームワークを提案する。
我々は,3次元形状,マルチビュー,カメラ視点,キーポイントの監督なしに画像収集を訓練した。
我々は、最先端のカメラ予測結果を取得し、オブジェクト間の多様な形状やテクスチャを予測することを学べることを示す。
論文 参考訳(メタデータ) (2020-07-21T17:58:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。