論文の概要: Total3DUnderstanding: Joint Layout, Object Pose and Mesh Reconstruction
for Indoor Scenes from a Single Image
- arxiv url: http://arxiv.org/abs/2002.12212v1
- Date: Thu, 27 Feb 2020 16:00:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 08:59:49.874573
- Title: Total3DUnderstanding: Joint Layout, Object Pose and Mesh Reconstruction
for Indoor Scenes from a Single Image
- Title(参考訳): トータル3dunderstanding:単一画像からの屋内シーンのジョイントレイアウト、オブジェクトポーズ、メッシュ再構成
- Authors: Yinyu Nie, Xiaoguang Han, Shihui Guo, Yujian Zheng, Jian Chang, Jian
Jun Zhang
- Abstract要約: 本研究では,単一画像から部屋レイアウト,オブジェクト境界ボックス,メッシュを共同で再構築するエンド・ツー・エンドのソリューションを提案する。
本手法は,3成分からなる粗大な階層構造を提案する。
SUN RGB-D および Pix3D データセットを用いた実験により,本手法が既存手法より一貫して優れていることを示す。
- 参考スコア(独自算出の注目度): 24.99186733297264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic reconstruction of indoor scenes refers to both scene understanding
and object reconstruction. Existing works either address one part of this
problem or focus on independent objects. In this paper, we bridge the gap
between understanding and reconstruction, and propose an end-to-end solution to
jointly reconstruct room layout, object bounding boxes and meshes from a single
image. Instead of separately resolving scene understanding and object
reconstruction, our method builds upon a holistic scene context and proposes a
coarse-to-fine hierarchy with three components: 1. room layout with camera
pose; 2. 3D object bounding boxes; 3. object meshes. We argue that
understanding the context of each component can assist the task of parsing the
others, which enables joint understanding and reconstruction. The experiments
on the SUN RGB-D and Pix3D datasets demonstrate that our method consistently
outperforms existing methods in indoor layout estimation, 3D object detection
and mesh reconstruction.
- Abstract(参考訳): 屋内シーンのセマンティックな再構築は、シーン理解とオブジェクト再構築の両方を指す。
既存の作業は、この問題の一部に対処するか、独立したオブジェクトに焦点を当てる。
本稿では,理解と再構築のギャップを橋渡し,一つの画像から部屋レイアウト,オブジェクト境界ボックス,メッシュを共同で再構築するエンドツーエンドソリューションを提案する。
シーン理解とオブジェクト再構築を別々に解決する代わりに,本手法は全体的シーンコンテキストに基づいて,3つの要素からなる粗い階層構造を提案する。
1. カメラポーズ付き部屋レイアウト
2. 3次元オブジェクトバウンディングボックス
3. オブジェクトメッシュ。
各コンポーネントのコンテキストを理解することは、他のコンポーネントを解析するタスクを補助し、共同理解と再構築を可能にする、と我々は主張する。
SUN RGB-D および Pix3D データセットを用いた実験により,本手法は屋内配置推定,3次元物体検出,メッシュ再構成において,既存の手法よりも一貫して優れていることが示された。
関連論文リスト
- Disentangled 3D Scene Generation with Layout Learning [109.03233745767062]
本稿では,コンポーネントオブジェクトに絡み合った3Dシーンを生成する手法を提案する。
私たちの重要な洞察は、オブジェクトは空間的に再構成された場合、同じシーンの有効な構成を生成する3Dシーンの一部を見つけることで発見できるということです。
単純さにもかかわらず、我々のアプローチは個々のオブジェクトに3Dシーンを生成することに成功している。
論文 参考訳(メタデータ) (2024-02-26T18:54:15Z) - Few-View Object Reconstruction with Unknown Categories and Camera Poses [80.0820650171476]
この研究は、カメラのポーズやオブジェクトのカテゴリを知らない少数の画像から、一般的な現実世界のオブジェクトを再構築する。
私たちの研究の要点は、形状再構成とポーズ推定という、2つの基本的な3D視覚問題を解決することです。
提案手法は,各ビューから3次元特徴を予測し,それらを入力画像と組み合わせて活用し,クロスビュー対応を確立する。
論文 参考訳(メタデータ) (2022-12-08T18:59:02Z) - Towards High-Fidelity Single-view Holistic Reconstruction of Indoor
Scenes [50.317223783035075]
単視点画像から総合的な3次元屋内シーンを再構築するための新しい枠組みを提案する。
詳細なオブジェクト再構成のためのインスタンス整列型暗黙関数(InstPIFu)を提案する。
私たちのコードとモデルは公開されます。
論文 参考訳(メタデータ) (2022-07-18T14:54:57Z) - TC-SfM: Robust Track-Community-Based Structure-from-Motion [24.956499348500763]
本研究では,現場における高次情報,すなわち地域空間の文脈情報を活用することで,復興を導くことを提案する。
新たな構造、すなわち、各コミュニティがトラックのグループで構成され、シーン内の局所的なセグメントを表現する、テキストトラックコミュニティが提案されている。
論文 参考訳(メタデータ) (2022-06-13T01:09:12Z) - Reconstructing Small 3D Objects in front of a Textured Background [0.0]
テクスチャ化された背景の前を移動する小さな物体の完全な3次元再構成手法を提案する。
これは運動から多体構造の特定のバリエーションであり、2つの物体のみに特化している。
実物を用いた実験では, 両面から3次元オブジェクトを再構成する際に, 現実的な利点があることが示されている。
論文 参考訳(メタデータ) (2021-05-24T15:36:33Z) - Holistic 3D Scene Understanding from a Single Image with Implicit
Representation [112.40630836979273]
単一の画像から全体的3Dシーン理解のための新しいパイプラインを提示する。
画像に基づく局所構造化暗黙ネットワークを提案し,物体形状推定を改善する。
また,新たな暗黙的なシーングラフニューラルネットワークを用いて3dオブジェクトのポーズとシーンレイアウトを洗練する。
論文 参考訳(メタデータ) (2021-03-11T02:52:46Z) - A Divide et Impera Approach for 3D Shape Reconstruction from Multiple
Views [49.03830902235915]
物体の3次元形状を1つまたは複数の画像から推定することは、最近のディープラーニングによるブレークスルーによって人気を集めている。
本稿では,与えられた視点からの可視情報を統合することで,視点変化の再構築に頼ることを提案する。
提案手法を検証するために,相対的なポーズ推定と3次元形状再構成の観点から,ShapeNet参照ベンチマークの総合評価を行った。
論文 参考訳(メタデータ) (2020-11-17T09:59:32Z) - CoReNet: Coherent 3D scene reconstruction from a single RGB image [43.74240268086773]
我々は1つのRBG画像のみを入力として与えられた1つの物体の形状を再構築する深層学習の進歩の上に構築する。
提案する3つの拡張は,(1)局所的な2次元情報を物理的に正しい方法で出力3Dボリュームに伝播するレイトレーシングスキップ接続,(2)翻訳同変モデルの構築を可能にするハイブリッド3Dボリューム表現,(3)全体オブジェクトの形状を捉えるために調整された再構成損失である。
すべての物体がカメラに対して一貫した1つの3次元座標フレームに居住し、3次元空間内では交差しないコヒーレントな再構成を実現する。
論文 参考訳(メタデータ) (2020-04-27T17:53:07Z) - Self-supervised Single-view 3D Reconstruction via Semantic Consistency [142.71430568330172]
対象物の形状, テクスチャ, カメラポーズを予測できる, 自己監督型, 単視点3D再構成モデルを学習する。
提案手法では,手動で注釈付けしたキーポイント,オブジェクトのマルチビューイメージ,あるいは事前の3Dテンプレートなど,3Dの監督を必要としない。
論文 参考訳(メタデータ) (2020-03-13T20:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。