論文の概要: Towards Panoptic 3D Parsing for Single Image in the Wild
- arxiv url: http://arxiv.org/abs/2111.03039v1
- Date: Thu, 4 Nov 2021 17:45:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-05 15:00:34.708423
- Title: Towards Panoptic 3D Parsing for Single Image in the Wild
- Title(参考訳): 野生における単一画像のpanoptic 3d解析に向けて
- Authors: Sainan Liu, Vincent Nguyen, Yuan Gao, Subarna Tripathi, Zhuowen Tu
- Abstract要約: 本稿では,1枚のRGB画像から,総合的な画像分割,オブジェクト検出,インスタンス分割,深度推定,オブジェクトインスタンスの3次元再構成を行う統合システムを提案する。
提案するパン光学3D解析フレームワークは,コンピュータビジョンにおいて有望な方向性を示す。
自律運転、マッピング、ロボット工学、デザイン、コンピュータグラフィックス、ロボット工学、人間とコンピュータの相互作用、拡張現実など、様々な応用に適用することができる。
- 参考スコア(独自算出の注目度): 35.98539308998578
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Performing single image holistic understanding and 3D reconstruction is a
central task in computer vision. This paper presents an integrated system that
performs holistic image segmentation, object detection, instance segmentation,
depth estimation, and object instance 3D reconstruction for indoor and outdoor
scenes from a single RGB image. We name our system panoptic 3D parsing in which
panoptic segmentation ("stuff" segmentation and "things"
detection/segmentation) with 3D reconstruction is performed. We design a
stage-wise system where a complete set of annotations is absent. Additionally,
we present an end-to-end pipeline trained on a synthetic dataset with a full
set of annotations. We show results on both indoor (3D-FRONT) and outdoor (COCO
and Cityscapes) scenes. Our proposed panoptic 3D parsing framework points to a
promising direction in computer vision. It can be applied to various
applications, including autonomous driving, mapping, robotics, design, computer
graphics, robotics, human-computer interaction, and augmented reality.
- Abstract(参考訳): 単一画像の全体的理解と3D再構成はコンピュータビジョンにおける中心的な課題である。
本稿では,一つのrgb画像から室内および屋外シーンに対して,全体像分割,物体検出,インスタンス分割,深度推定,オブジェクトインスタンス3次元再構成を行う統合システムを提案する。
我々は,3次元再構成を伴うパンオプティカルセグメンテーション("suff"セグメンテーションと"things"検出/セグメンテーション)を行うシステムpanoptic 3dパースを命名する。
アノテーションの完全なセットが存在しない段階的なシステムを設計する。
さらに、アノテーションの完全なセットで合成データセットでトレーニングされたエンドツーエンドパイプラインも提示する。
屋内(3D-FRONT)と屋外(COCOとCityscapes)の両方の場面で結果を示す。
提案するパン光学3D解析フレームワークは,コンピュータビジョンにおいて有望な方向性を示す。
自律運転、マッピング、ロボット工学、デザイン、コンピュータグラフィックス、ロボット工学、人間とコンピュータの相互作用、拡張現実など、様々な応用に適用することができる。
関連論文リスト
- SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - SceneWiz3D: Towards Text-guided 3D Scene Composition [134.71933134180782]
既存のアプローチでは、大規模なテキスト・ツー・イメージモデルを使用して3D表現を最適化するか、オブジェクト中心のデータセット上で3Dジェネレータをトレーニングする。
テキストから高忠実度3Dシーンを合成する新しい手法であるSceneWiz3Dを紹介する。
論文 参考訳(メタデータ) (2023-12-13T18:59:30Z) - Generating Visual Spatial Description via Holistic 3D Scene
Understanding [88.99773815159345]
視覚空間記述(VSD)は、画像内の対象物の空間的関係を記述するテキストを生成することを目的としている。
外部の3Dシーン抽出器を用いて,入力画像の3Dオブジェクトとシーン特徴を抽出する。
対象物の中心となる3次元空間シーングラフ(Go3D-S2G)を構築し,対象物の空間意味を総合的な3次元シーン内にモデル化する。
論文 参考訳(メタデータ) (2023-05-19T15:53:56Z) - Learning 3D Scene Priors with 2D Supervision [37.79852635415233]
本研究では,3次元の地平を必要とせず,レイアウトや形状の3次元シーンを学習するための新しい手法を提案する。
提案手法は, 3次元シーンを潜在ベクトルとして表現し, クラスカテゴリを特徴とするオブジェクト列に段階的に復号化することができる。
3D-FRONT と ScanNet による実験により,本手法は単一視点再構成における技術状況よりも優れていた。
論文 参考訳(メタデータ) (2022-11-25T15:03:32Z) - Neural Groundplans: Persistent Neural Scene Representations from a
Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。
本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:41:24Z) - Learning Ego 3D Representation as Ray Tracing [42.400505280851114]
我々は、制約のないカメラビューからエゴ3D表現学習のための新しいエンドツーエンドアーキテクチャを提案する。
レイトレーシングの原理にインスパイアされた我々は、学習可能なエゴ3D表現として「虚視」の偏極格子を設計する。
我々のモデルはすべての最先端の代替品を著しく上回ります。
論文 参考訳(メタデータ) (2022-06-08T17:55:50Z) - Panoptic 3D Scene Reconstruction From a Single RGB Image [24.960786016915105]
単一の画像から3Dシーンを理解することは、ロボット工学、モーションプランニング、拡張現実など、幅広いタスクの基本である。
2次元パノプティカルセグメンテーションに着想を得て,幾何学的再構成,3次元セマンティックセグメンテーション,および3次元インスタンスセグメンテーションのタスクをパノプティカル3Dシーンコンストラクションのタスクに統合することを提案する。
共同シーンの再構築,セマンティック,インスタンスセグメンテーションのこの全体的視点は,タスクを個別に扱うよりも有益であることを示す。
論文 参考訳(メタデータ) (2021-11-03T18:06:38Z) - Multi-Plane Program Induction with 3D Box Priors [110.6726150681556]
1つの画像からプログラムライクなシーン表現を推論するBox Program Injection (BPI)を提案する。
BPIは同時に、複数の2次元平面上の繰り返し構造、平面の3次元位置と向き、およびカメラパラメータをモデル化する。
ニューラルネットワークを使って、点の消滅やワイヤーフレーム線などの視覚的手がかりを推論し、検索ベースのアルゴリズムを誘導し、最もよく画像を説明するプログラムを見つける。
論文 参考訳(メタデータ) (2020-11-19T18:07:46Z) - Disentangling 3D Prototypical Networks For Few-Shot Concept Learning [29.02523358573336]
本稿では,RGB-D画像をオブジェクトの形状やスタイルや背景シーンの地図に分解するニューラルネットワークアーキテクチャを提案する。
我々のネットワークには、画像形成過程、世界シーンの3次元幾何学、形状スタイルの相互作用を反映したアーキテクチャバイアスが組み込まれています。
論文 参考訳(メタデータ) (2020-11-06T14:08:27Z) - Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using
Deep Shape Priors [69.02332607843569]
PriSMONetは、単一画像から多目的3Dシーンの分解と表現を学習するための新しいアプローチである。
リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。
我々は,3次元シーンレイアウトの推測におけるモデルの精度を評価し,その生成能力を実証し,実画像への一般化を評価し,学習した表現の利点を指摘する。
論文 参考訳(メタデータ) (2020-10-08T14:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。