論文の概要: Panoptic 3D Scene Reconstruction From a Single RGB Image
- arxiv url: http://arxiv.org/abs/2111.02444v1
- Date: Wed, 3 Nov 2021 18:06:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-05 15:03:18.800575
- Title: Panoptic 3D Scene Reconstruction From a Single RGB Image
- Title(参考訳): 単一rgb画像からのパンオプティカル3次元シーン再構成
- Authors: Manuel Dahnert, Ji Hou, Matthias Nie{\ss}ner, Angela Dai
- Abstract要約: 単一の画像から3Dシーンを理解することは、ロボット工学、モーションプランニング、拡張現実など、幅広いタスクの基本である。
2次元パノプティカルセグメンテーションに着想を得て,幾何学的再構成,3次元セマンティックセグメンテーション,および3次元インスタンスセグメンテーションのタスクをパノプティカル3Dシーンコンストラクションのタスクに統合することを提案する。
共同シーンの再構築,セマンティック,インスタンスセグメンテーションのこの全体的視点は,タスクを個別に扱うよりも有益であることを示す。
- 参考スコア(独自算出の注目度): 24.960786016915105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding 3D scenes from a single image is fundamental to a wide variety
of tasks, such as for robotics, motion planning, or augmented reality. Existing
works in 3D perception from a single RGB image tend to focus on geometric
reconstruction only, or geometric reconstruction with semantic segmentation or
instance segmentation. Inspired by 2D panoptic segmentation, we propose to
unify the tasks of geometric reconstruction, 3D semantic segmentation, and 3D
instance segmentation into the task of panoptic 3D scene reconstruction - from
a single RGB image, predicting the complete geometric reconstruction of the
scene in the camera frustum of the image, along with semantic and instance
segmentations. We thus propose a new approach for holistic 3D scene
understanding from a single RGB image which learns to lift and propagate 2D
features from an input image to a 3D volumetric scene representation. We
demonstrate that this holistic view of joint scene reconstruction, semantic,
and instance segmentation is beneficial over treating the tasks independently,
thus outperforming alternative approaches.
- Abstract(参考訳): 1枚の画像から3dシーンを理解することは、ロボティクス、モーションプランニング、拡張現実など、さまざまなタスクの基本である。
単一のRGB画像からの3次元知覚における既存の研究は、幾何学的再構成のみに焦点を当てる傾向がある。
2dパンオプティカルセグメンテーションに触発されて,3d意味セグメンテーション,および3dインスタンスセグメンテーションのタスクを1つのrgb画像からパンオプティカル3dシーンセグメンテーションのタスクに統合し,画像のカメラフラスタムにおけるシーンの完全な幾何学的再構成を予測し,セマンティックセグメンテーションとインスタンスセグメンテーションを組み合わせることを提案する。
そこで本研究では,入力画像から3Dボリュームシーン表現への2D特徴の持ち上げと伝播を学習する,単一のRGB画像からの全体的3Dシーン理解のための新しいアプローチを提案する。
共同シーンの再構築,セマンティック,インスタンスセグメンテーションのこの全体的視点は,タスクを個別に扱うよりも有益であることを示す。
関連論文リスト
- Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。
LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。
新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文 参考訳(メタデータ) (2024-10-24T17:54:42Z) - MOSE: Monocular Semantic Reconstruction Using NeRF-Lifted Noisy Priors [11.118490283303407]
画像レベルの雑音を3次元に引き上げるニューラルネットワークセマンティック・リコンストラクション手法を提案する。
本手法は3次元空間と2次元空間の両方で正確な意味論と幾何学を生成する。
論文 参考訳(メタデータ) (2024-09-21T05:12:13Z) - Part123: Part-aware 3D Reconstruction from a Single-view Image [54.589723979757515]
Part123は、一視点画像から部分認識された3D再構成のための新しいフレームワークである。
ニューラルレンダリングフレームワークにコントラスト学習を導入し、部分認識機能空間を学習する。
クラスタリングに基づくアルゴリズムも開発され、再構成されたモデルから3次元部分分割結果を自動的に導出する。
論文 参考訳(メタデータ) (2024-05-27T07:10:21Z) - Single-view 3D Scene Reconstruction with High-fidelity Shape and Texture [47.44029968307207]
本研究では,物体の形状とテクスチャを同時に高忠実度に再現する新しい枠組みを提案する。
提案手法は,SSR(Single-view Neural implicit Shape and Radiance Field)表現を用いて,明示的な3次元形状制御とボリュームレンダリングの両方を活用する。
我々のフレームワークの特徴は、単一のビュー3D再構成モデルにレンダリング機能をシームレスに統合しながら、きめ細かいテクスチャメッシュを生成する能力である。
論文 参考訳(メタデータ) (2023-11-01T11:46:15Z) - A One Stop 3D Target Reconstruction and multilevel Segmentation Method [0.0]
オープンソースのワンストップ3Dターゲット再構成とマルチレベルセグメンテーションフレームワーク(OSTRA)を提案する。
OSTRAは2D画像上でセグメンテーションを行い、画像シーケンス内のセグメンテーションラベルで複数のインスタンスを追跡し、ラベル付き3Dオブジェクトまたは複数のパーツをMulti-View Stereo(MVS)またはRGBDベースの3D再構成手法で再構成する。
本手法は,複雑なシーンにおいて,リッチなマルチスケールセグメンテーション情報に埋め込まれた3次元ターゲットを再構築するための新たな道を開く。
論文 参考訳(メタデータ) (2023-08-14T07:12:31Z) - ONeRF: Unsupervised 3D Object Segmentation from Multiple Views [59.445957699136564]
OneRFは、追加のマニュアルアノテーションなしで、マルチビューのRGBイメージから3Dのオブジェクトインスタンスを自動的に分割し、再構成する手法である。
セグメント化された3Dオブジェクトは、様々な3Dシーンの編集と新しいビューレンダリングを可能にする別個のNeRF(Neural Radiance Fields)を使用して表現される。
論文 参考訳(メタデータ) (2022-11-22T06:19:37Z) - Single-view 3D Mesh Reconstruction for Seen and Unseen Categories [69.29406107513621]
シングルビュー3Dメッシュ再構成は、シングルビューRGB画像から3D形状を復元することを目的とした、基本的なコンピュータビジョンタスクである。
本稿では,一視点3Dメッシュ再構成に取り組み,未知のカテゴリのモデル一般化について検討する。
我々は、再構築におけるカテゴリ境界を断ち切るために、エンドツーエンドの2段階ネットワークであるGenMeshを提案する。
論文 参考訳(メタデータ) (2022-08-04T14:13:35Z) - Neural Groundplans: Persistent Neural Scene Representations from a
Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。
本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:41:24Z) - Towards Panoptic 3D Parsing for Single Image in the Wild [35.98539308998578]
本稿では,1枚のRGB画像から,総合的な画像分割,オブジェクト検出,インスタンス分割,深度推定,オブジェクトインスタンスの3次元再構成を行う統合システムを提案する。
提案するパン光学3D解析フレームワークは,コンピュータビジョンにおいて有望な方向性を示す。
自律運転、マッピング、ロボット工学、デザイン、コンピュータグラフィックス、ロボット工学、人間とコンピュータの相互作用、拡張現実など、様々な応用に適用することができる。
論文 参考訳(メタデータ) (2021-11-04T17:45:04Z) - Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using
Deep Shape Priors [69.02332607843569]
PriSMONetは、単一画像から多目的3Dシーンの分解と表現を学習するための新しいアプローチである。
リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。
我々は,3次元シーンレイアウトの推測におけるモデルの精度を評価し,その生成能力を実証し,実画像への一般化を評価し,学習した表現の利点を指摘する。
論文 参考訳(メタデータ) (2020-10-08T14:49:23Z) - CoReNet: Coherent 3D scene reconstruction from a single RGB image [43.74240268086773]
我々は1つのRBG画像のみを入力として与えられた1つの物体の形状を再構築する深層学習の進歩の上に構築する。
提案する3つの拡張は,(1)局所的な2次元情報を物理的に正しい方法で出力3Dボリュームに伝播するレイトレーシングスキップ接続,(2)翻訳同変モデルの構築を可能にするハイブリッド3Dボリューム表現,(3)全体オブジェクトの形状を捉えるために調整された再構成損失である。
すべての物体がカメラに対して一貫した1つの3次元座標フレームに居住し、3次元空間内では交差しないコヒーレントな再構成を実現する。
論文 参考訳(メタデータ) (2020-04-27T17:53:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。