論文の概要: Mask2CAD: 3D Shape Prediction by Learning to Segment and Retrieve
- arxiv url: http://arxiv.org/abs/2007.13034v1
- Date: Sun, 26 Jul 2020 00:08:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-06 19:54:26.883171
- Title: Mask2CAD: 3D Shape Prediction by Learning to Segment and Retrieve
- Title(参考訳): Mask2CAD: セグメンテーションと検索の学習による3次元形状予測
- Authors: Weicheng Kuo, Anelia Angelova, Tsung-Yi Lin, Angela Dai
- Abstract要約: 本稿では,既存の3次元モデルの大規模データセットを活用し,画像中の物体の3次元構造を理解することを提案する。
本稿では,実世界の画像と検出対象を共同で検出するMask2CADについて,最も類似したCADモデルとそのポーズを最適化する。
これにより、画像内のオブジェクトのクリーンで軽量な表現が生成される。
- 参考スコア(独自算出の注目度): 54.054575408582565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object recognition has seen significant progress in the image domain, with
focus primarily on 2D perception. We propose to leverage existing large-scale
datasets of 3D models to understand the underlying 3D structure of objects seen
in an image by constructing a CAD-based representation of the objects and their
poses. We present Mask2CAD, which jointly detects objects in real-world images
and for each detected object, optimizes for the most similar CAD model and its
pose. We construct a joint embedding space between the detected regions of an
image corresponding to an object and 3D CAD models, enabling retrieval of CAD
models for an input RGB image. This produces a clean, lightweight
representation of the objects in an image; this CAD-based representation
ensures a valid, efficient shape representation for applications such as
content creation or interactive scenarios, and makes a step towards
understanding the transformation of real-world imagery to a synthetic domain.
Experiments on real-world images from Pix3D demonstrate the advantage of our
approach in comparison to state of the art. To facilitate future research, we
additionally propose a new image-to-3D baseline on ScanNet which features
larger shape diversity, real-world occlusions, and challenging image views.
- Abstract(参考訳): 物体認識は画像領域で大きく進歩しており、主に2次元知覚に焦点が当てられている。
本稿では,既存の3次元モデルの大規模データセットを活用し,CADによるオブジェクトとそのポーズの表現を構築し,画像中のオブジェクトの3次元構造を理解することを提案する。
本稿では,実世界の画像と検出対象を共同で検出するMask2CADについて,最も類似したCADモデルとそのポーズを最適化する。
オブジェクトに対応する画像の検出領域と3次元CADモデルとの結合埋め込み空間を構築し,入力されたRGB画像に対するCADモデルの検索を可能にする。
このCADベースの表現は、コンテンツ作成やインタラクティブなシナリオのようなアプリケーションに対して有効な、効率的な形状表現を保証し、現実世界の画像から合成ドメインへの変換を理解するための一歩となる。
Pix3Dによる実世界の画像の実験は、最先端技術と比較して、我々のアプローチの利点を実証している。
さらに,より広い形状の多様性,実世界のオクルージョン,挑戦的な画像ビューを特徴とするscannet上の新しい画像から3dへのベースラインを提案する。
関連論文リスト
- ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models [65.22994156658918]
実世界のデータから1つの認知過程において多視点画像を生成することを学習する手法を提案する。
我々は、任意の視点でより多くの3D一貫性のある画像をレンダリングする自己回帰生成を設計する。
論文 参考訳(メタデータ) (2024-03-04T07:57:05Z) - Sparse Multi-Object Render-and-Compare [33.97243145891282]
一つの画像から静的な物体の3次元形状とポーズを再構築することは、様々な産業にとって重要な課題である。
直接3D形状を予測することで、非現実的で、過度に滑らかになったり、刻まれた形になる。
CADモデルを取得することで、現実的な形状が保証されるが、堅牢で正確なアライメントが必要である。
論文 参考訳(メタデータ) (2023-10-17T12:01:32Z) - Patch2CAD: Patchwise Embedding Learning for In-the-Wild Shape Retrieval
from a Single Image [58.953160501596805]
本稿では,2次元画像と3次元CADモデルの結合埋め込み空間をパッチワイズで構築する手法を提案する。
我々のアプローチは、CADが正確に一致しない実世界のシナリオにおける最先端技術よりも堅牢である。
論文 参考訳(メタデータ) (2021-08-20T20:58:52Z) - Learning Canonical 3D Object Representation for Fine-Grained Recognition [77.33501114409036]
本研究では,1枚の画像から3次元空間における物体の変動を再現する微粒な物体認識のための新しいフレームワークを提案する。
我々は,物体を3次元形状とその外観の合成として表現し,カメラ視点の影響を排除した。
深部表現に3次元形状と外観を併用することにより,物体の識別表現を学習する。
論文 参考訳(メタデータ) (2021-08-10T12:19:34Z) - Geometric Processing for Image-based 3D Object Modeling [2.6397379133308214]
本稿では,幾何処理の3つの主要構成要素の最先端手法について紹介する:(1)ジオレファレンス; 2)画像密度マッチング3)テクスチャマッピング。
3Dオブジェクト再構成ワークフローにおける画像の大部分が自動化された幾何処理は、現実的な3Dモデリングの重要な部分となっている。
論文 参考訳(メタデータ) (2021-06-27T18:33:30Z) - Fully Understanding Generic Objects: Modeling, Segmentation, and
Reconstruction [33.95791350070165]
2D画像からジェネリックオブジェクトの3D構造を推定することは、コンピュータビジョンの長年の目標です。
半教師付き学習による代替アプローチを取る。
つまり、ジェネリックオブジェクトの2Dイメージでは、カテゴリ、形状、およびアルベドの潜在的な表現に分解します。
完全な形状とアルベドモデリングにより、モデリングとモデルフィッティングの両方で実際の2Dイメージを活用できることを示しています。
論文 参考訳(メタデータ) (2021-04-02T02:39:29Z) - GRF: Learning a General Radiance Field for 3D Representation and
Rendering [4.709764624933227]
我々は、暗黙的に3Dオブジェクトとシーンを2D観察からのみ表現しレンダリングする、シンプルだが強力なニューラルネットワークを提案する。
ネットワークは、一般的な放射場として3Dジオメトリをモデル化し、カメラのポーズと固有の2D画像のセットを入力として取り込む。
提案手法は, 斬新なオブジェクト, 見えないカテゴリ, 現実のシーンに対して, 高品質で現実的な新しいビューを生成できる。
論文 参考訳(メタデータ) (2020-10-09T14:21:43Z) - Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using
Deep Shape Priors [69.02332607843569]
PriSMONetは、単一画像から多目的3Dシーンの分解と表現を学習するための新しいアプローチである。
リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。
我々は,3次元シーンレイアウトの推測におけるモデルの精度を評価し,その生成能力を実証し,実画像への一般化を評価し,学習した表現の利点を指摘する。
論文 参考訳(メタデータ) (2020-10-08T14:49:23Z) - Self-Supervised 2D Image to 3D Shape Translation with Disentangled
Representations [92.89846887298852]
本稿では,2次元画像ビューと3次元オブジェクト形状を翻訳するフレームワークを提案する。
形状変換のための自己教師型画像変換フレームワークであるSISTを提案する。
論文 参考訳(メタデータ) (2020-03-22T22:44:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。