論文の概要: Single Image 3D Object Estimation with Primitive Graph Networks
- arxiv url: http://arxiv.org/abs/2109.04153v1
- Date: Thu, 9 Sep 2021 10:28:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-10 14:28:12.413553
- Title: Single Image 3D Object Estimation with Primitive Graph Networks
- Title(参考訳): 原始グラフネットワークを用いた単一画像3次元オブジェクト推定
- Authors: Qian He, Desen Zhou, Bo Wan, Xuming He
- Abstract要約: 1つの画像から3Dオブジェクトを再構成することは、視覚的シーン理解の基本的な問題である。
プリミティブに基づく3次元オブジェクト推定のための2段階グラフネットワークを提案する。
ステージワイズ戦略でグラフニューラルネットワーク全体をトレーニングし、Pix3D、ModelNet、NYU Depth V2の3つのベンチマークで評価する。
- 参考スコア(独自算出の注目度): 30.315124364682994
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reconstructing 3D object from a single image (RGB or depth) is a fundamental
problem in visual scene understanding and yet remains challenging due to its
ill-posed nature and complexity in real-world scenes. To address those
challenges, we adopt a primitive-based representation for 3D object, and
propose a two-stage graph network for primitive-based 3D object estimation,
which consists of a sequential proposal module and a graph reasoning module.
Given a 2D image, our proposal module first generates a sequence of 3D
primitives from input image with local feature attention. Then the graph
reasoning module performs joint reasoning on a primitive graph to capture the
global shape context for each primitive. Such a framework is capable of taking
into account rich geometry and semantic constraints during 3D structure
recovery, producing 3D objects with more coherent structure even under
challenging viewing conditions. We train the entire graph neural network in a
stage-wise strategy and evaluate it on three benchmarks: Pix3D, ModelNet and
NYU Depth V2. Extensive experiments show that our approach outperforms the
previous state of the arts with a considerable margin.
- Abstract(参考訳): 単一の画像(RGBまたは深さ)から3Dオブジェクトを再構成することは、視覚的なシーン理解の根本的な問題であり、現実のシーンでは不適切な性質と複雑さのため、依然として困難である。
これらの課題に対処するために,我々は3dオブジェクトのプリミティブベース表現を採用し,逐次提案モジュールとグラフ推論モジュールからなる,プリミティブベースの3dオブジェクト推定のための2段階グラフネットワークを提案する。
2次元画像が与えられたとき、提案モジュールはまず、局所的な特徴に注意を向けた入力画像から3次元プリミティブのシーケンスを生成する。
そして、グラフ推論モジュールはプリミティブグラフ上で共同推論を行い、プリミティブごとのグローバルな形状コンテキストをキャプチャする。
このようなフレームワークは、3D構造回復中にリッチな幾何学的制約や意味的制約を考慮に入れ、困難な観察条件下でもより一貫性のある3Dオブジェクトを生成することができる。
ステージワイズ戦略でグラフニューラルネットワーク全体をトレーニングし、Pix3D、ModelNet、NYU Depth V2の3つのベンチマークで評価する。
広範な実験によって、我々のアプローチは前回の最先端の芸術をかなり上回っています。
関連論文リスト
- Single-view 3D Scene Reconstruction with High-fidelity Shape and Texture [47.44029968307207]
本研究では,物体の形状とテクスチャを同時に高忠実度に再現する新しい枠組みを提案する。
提案手法は,SSR(Single-view Neural implicit Shape and Radiance Field)表現を用いて,明示的な3次元形状制御とボリュームレンダリングの両方を活用する。
我々のフレームワークの特徴は、単一のビュー3D再構成モデルにレンダリング機能をシームレスに統合しながら、きめ細かいテクスチャメッシュを生成する能力である。
論文 参考訳(メタデータ) (2023-11-01T11:46:15Z) - LIST: Learning Implicitly from Spatial Transformers for Single-View 3D
Reconstruction [5.107705550575662]
Listは、局所的およびグローバルな画像特徴を活用して、単一の画像から3Dオブジェクトの幾何学的および位相的構造を再構築する、新しいニューラルネットワークである。
合成画像と実世界の画像から3Dオブジェクトを再構成する際のモデルの有用性を示す。
論文 参考訳(メタデータ) (2023-07-23T01:01:27Z) - Incremental 3D Semantic Scene Graph Prediction from RGB Sequences [86.77318031029404]
RGB画像列が与えられたシーンの一貫性のある3Dセマンティックシーングラフをインクリメンタルに構築するリアルタイムフレームワークを提案する。
提案手法は,新たなインクリメンタルエンティティ推定パイプラインとシーングラフ予測ネットワークから構成される。
提案するネットワークは,シーンエンティティから抽出した多視点および幾何学的特徴を用いて,反復的メッセージパッシングを用いた3次元セマンティックシーングラフを推定する。
論文 参考訳(メタデータ) (2023-05-04T11:32:16Z) - 3D Surface Reconstruction in the Wild by Deforming Shape Priors from
Synthetic Data [24.97027425606138]
1枚の画像から被写体の3次元表面を再構築することは難しい問題である。
本稿では,1枚の画像から3次元合成とオブジェクトポーズ推定を行う新しい手法を提案する。
提案手法は,複数の実世界のデータセットにまたがって,最先端の再構築性能を実現する。
論文 参考訳(メタデータ) (2023-02-24T20:37:27Z) - Neural Correspondence Field for Object Pose Estimation [67.96767010122633]
1枚のRGB画像から3次元モデルで剛体物体の6DoFポーズを推定する手法を提案する。
入力画像の画素で3次元オブジェクト座標を予測する古典的対応法とは異なり,提案手法はカメラフラストラムでサンプリングされた3次元クエリポイントで3次元オブジェクト座標を予測する。
論文 参考訳(メタデータ) (2022-07-30T01:48:23Z) - 3D Shape Reconstruction from 2D Images with Disentangled Attribute Flow [61.62796058294777]
単一の2D画像から3D形状を再構築することは難しい作業だ。
従来の手法の多くは3次元再構成作業における意味的属性の抽出に苦慮している。
本稿では,3DAttriFlowを用いて,入力画像の異なる意味レベルから意味的属性を抽出する手法を提案する。
論文 参考訳(メタデータ) (2022-03-29T02:03:31Z) - Learnable Triangulation for Deep Learning-based 3D Reconstruction of
Objects of Arbitrary Topology from Single RGB Images [12.693545159861857]
モノクロ画像から3次元物体を再構成する深層強化学習手法を提案する。
提案手法は, 視覚的品質, 再構成精度, 計算時間において, 最先端技術よりも優れる。
論文 参考訳(メタデータ) (2021-09-24T09:44:22Z) - Hybrid Approach for 3D Head Reconstruction: Using Neural Networks and
Visual Geometry [3.970492757288025]
本稿では,深層学習と幾何学的手法に基づくハイブリッド手法を用いて,複数の画像から3次元頭部を再構築する手法を提案する。
U-netアーキテクチャに基づくエンコーダデコーダネットワークを提案し、合成データのみを学習する。
論文 参考訳(メタデータ) (2021-04-28T11:31:35Z) - Joint Deep Multi-Graph Matching and 3D Geometry Learning from
Inhomogeneous 2D Image Collections [57.60094385551773]
非均質な画像コレクションから変形可能な3Dジオメトリモデルを学ぶためのトレーニング可能なフレームワークを提案する。
さらに,2次元画像で表現された物体の3次元形状も取得する。
論文 参考訳(メタデータ) (2021-03-31T17:25:36Z) - Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using
Deep Shape Priors [69.02332607843569]
PriSMONetは、単一画像から多目的3Dシーンの分解と表現を学習するための新しいアプローチである。
リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。
我々は,3次元シーンレイアウトの推測におけるモデルの精度を評価し,その生成能力を実証し,実画像への一般化を評価し,学習した表現の利点を指摘する。
論文 参考訳(メタデータ) (2020-10-08T14:49:23Z) - Learning Unsupervised Hierarchical Part Decomposition of 3D Objects from
a Single RGB Image [102.44347847154867]
プリミティブの集合として3次元オブジェクトの幾何を共同で復元できる新しい定式化を提案する。
我々のモデルは、プリミティブのバイナリツリーの形で、様々なオブジェクトの高レベルな構造的分解を復元する。
ShapeNet と D-FAUST のデータセットを用いた実験により,部品の組織化を考慮すれば3次元形状の推論が容易になることが示された。
論文 参考訳(メタデータ) (2020-04-02T17:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。