論文の概要: Learning 3D Scene Priors with 2D Supervision
- arxiv url: http://arxiv.org/abs/2211.14157v1
- Date: Fri, 25 Nov 2022 15:03:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 17:21:51.421807
- Title: Learning 3D Scene Priors with 2D Supervision
- Title(参考訳): 2次元スーパービジョンによる3次元シーン先行学習
- Authors: Yinyu Nie, Angela Dai, Xiaoguang Han, Matthias Nie{\ss}ner
- Abstract要約: 本研究では,3次元の地平を必要とせず,レイアウトや形状の3次元シーンを学習するための新しい手法を提案する。
提案手法は, 3次元シーンを潜在ベクトルとして表現し, クラスカテゴリを特徴とするオブジェクト列に段階的に復号化することができる。
3D-FRONT と ScanNet による実験により,本手法は単一視点再構成における技術状況よりも優れていた。
- 参考スコア(独自算出の注目度): 37.79852635415233
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Holistic 3D scene understanding entails estimation of both layout
configuration and object geometry in a 3D environment. Recent works have shown
advances in 3D scene estimation from various input modalities (e.g., images, 3D
scans), by leveraging 3D supervision (e.g., 3D bounding boxes or CAD models),
for which collection at scale is expensive and often intractable. To address
this shortcoming, we propose a new method to learn 3D scene priors of layout
and shape without requiring any 3D ground truth. Instead, we rely on 2D
supervision from multi-view RGB images. Our method represents a 3D scene as a
latent vector, from which we can progressively decode to a sequence of objects
characterized by their class categories, 3D bounding boxes, and meshes. With
our trained autoregressive decoder representing the scene prior, our method
facilitates many downstream applications, including scene synthesis,
interpolation, and single-view reconstruction. Experiments on 3D-FRONT and
ScanNet show that our method outperforms state of the art in single-view
reconstruction, and achieves state-of-the-art results in scene synthesis
against baselines which require for 3D supervision.
- Abstract(参考訳): ホロスティックな3次元シーン理解は、3次元環境におけるレイアウト構成とオブジェクト形状の両方を推定する。
近年の研究では、3次元の監督(3dバウンディングボックスやcadモデルなど)を活用して、様々な入力モード(画像や3dスキャンなど)からの3dシーン推定の進歩を示しており、大規模な収集は高価でしばしば難解である。
この欠点に対処するために,3次元地上真実を必要としないレイアウトと形状の3次元シーンを学習する手法を提案する。
代わりに、マルチビューのRGB画像から2Dの監視に頼っています。
本手法は3dシーンを潜伏ベクトルとして表現し,それらのクラスカテゴリ,3dバウンディングボックス,メッシュを特徴とする一連のオブジェクトに段階的に復号することができる。
事前のシーンを表す自動回帰デコーダをトレーニングすることで,シーン合成や補間,単一視点の再構成など,多くの下流アプリケーションを実現する。
3D-FRONT と ScanNet の実験により,本手法は単一視点再構成における技術状況よりも優れており,3D の監督を必要とするベースラインに対するシーン合成における最先端の結果が得られた。
関連論文リスト
- Learning 3D Representations from Procedural 3D Programs [6.915871213703219]
自己教師付き学習は、ラベルのない3Dポイントクラウドから転送可能な3D表現を取得するための有望なアプローチとして登場した。
簡単なプリミティブと拡張を使って3次元形状を自動的に生成する手続き型3Dプログラムから3次元表現を学習する。
論文 参考訳(メタデータ) (2024-11-25T18:59:57Z) - General Geometry-aware Weakly Supervised 3D Object Detection [62.26729317523975]
RGB画像と関連する2Dボックスから3Dオブジェクト検出器を学習するための統合フレームワークを開発した。
KITTIとSUN-RGBDデータセットの実験により,本手法は驚くほど高品質な3次元境界ボックスを2次元アノテーションで生成することを示した。
論文 参考訳(メタデータ) (2024-07-18T17:52:08Z) - SceneWiz3D: Towards Text-guided 3D Scene Composition [134.71933134180782]
既存のアプローチでは、大規模なテキスト・ツー・イメージモデルを使用して3D表現を最適化するか、オブジェクト中心のデータセット上で3Dジェネレータをトレーニングする。
テキストから高忠実度3Dシーンを合成する新しい手法であるSceneWiz3Dを紹介する。
論文 参考訳(メタデータ) (2023-12-13T18:59:30Z) - Model2Scene: Learning 3D Scene Representation via Contrastive
Language-CAD Models Pre-training [105.3421541518582]
現在成功している3次元シーン認識法は、大規模アノテートされた点雲に依存している。
CAD(Computer-Aided Design)モデルと言語から自由な3Dシーン表現を学習する新しいパラダイムであるModel2Sceneを提案する。
Model2Sceneは、平均mAPが46.08%、ScanNetとS3DISのデータセットが55.49%という、ラベルなしの優れた3Dオブジェクトのサリエント検出をもたらす。
論文 参考訳(メタデータ) (2023-09-29T03:51:26Z) - Neural 3D Scene Reconstruction from Multiple 2D Images without 3D
Supervision [41.20504333318276]
平面制約下でのスパース深度を用いてシーンを3次元の監督なしに再構成する新しいニューラル再構成法を提案する。
シーンを表すために,符号付き距離関数場,色場,確率場を導入する。
我々は、これらのフィールドを最適化し、2D画像で識別可能な光線マーキングを監督することでシーンを再構築する。
論文 参考訳(メタデータ) (2023-06-30T13:30:48Z) - NeurOCS: Neural NOCS Supervision for Monocular 3D Object Localization [80.3424839706698]
入力として3Dボックスをインスタンスマスクとして使用するNeurOCSを提案する。
われわれのアプローチは、実際の運転シーンから直接カテゴリレベルの形状を学習する際の洞察に依存している。
我々は、オブジェクト中心の視点からオブジェクト座標をより効果的に学習するための重要な設計選択を行う。
論文 参考訳(メタデータ) (2023-05-28T16:18:41Z) - CC3D: Layout-Conditioned Generation of Compositional 3D Scenes [49.281006972028194]
本稿では,複雑な3次元シーンを2次元セマンティックなシーンレイアウトで合成する条件生成モデルであるCC3Dを紹介する。
合成3D-FRONTと実世界のKITTI-360データセットに対する評価は、我々のモデルが視覚的および幾何学的品質を改善したシーンを生成することを示す。
論文 参考訳(メタデータ) (2023-03-21T17:59:02Z) - Learning 3D Object Shape and Layout without 3D Supervision [26.575177430506667]
3Dシーンはオブジェクトのセットで構成され、それぞれが空間における位置を与える形状とレイアウトを持つ。
本研究では,物体の3次元形状とレイアウトを,地平面形状やレイアウト情報なしで予測する手法を提案する。
我々のアプローチは、より小さく、より多様なデータセットで訓練された教師ありアプローチよりも優れています。
論文 参考訳(メタデータ) (2022-06-14T17:49:44Z) - RandomRooms: Unsupervised Pre-training from Synthetic Shapes and
Randomized Layouts for 3D Object Detection [138.2892824662943]
有望な解決策は、CADオブジェクトモデルで構成される合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。
最近の3次元事前学習の研究は、合成物体から他の実世界の応用へ学習した伝達特性が失敗することを示している。
本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
論文 参考訳(メタデータ) (2021-08-17T17:56:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。