論文の概要: MonoScene: Monocular 3D Semantic Scene Completion
- arxiv url: http://arxiv.org/abs/2112.00726v1
- Date: Wed, 1 Dec 2021 18:59:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-02 13:58:42.413862
- Title: MonoScene: Monocular 3D Semantic Scene Completion
- Title(参考訳): MonoScene: モノクロ3Dセマンティックシーンの完成
- Authors: Anh-Quan Cao, Raoul de Charette
- Abstract要約: Monoは3Dセマンティックシーンコンプリート(SSC)フレームワークを提案し、シーンの密集した幾何学と意味を単一の単分子画像から推測する。
我々のフレームワークは、光学から刺激を受ける新しい2-3次元特徴投影によってブリッジされた連続した2次元および3次元ユニセットに依存している。
- 参考スコア(独自算出の注目度): 9.92186106077902
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: MonoScene proposes a 3D Semantic Scene Completion (SSC) framework, where the
dense geometry and semantics of a scene are inferred from a single monocular
RGB image. Different from the SSC literature, relying on 2.5 or 3D input, we
solve the complex problem of 2D to 3D scene reconstruction while jointly
inferring its semantics. Our framework relies on successive 2D and 3D UNets
bridged by a novel 2D-3D features projection inspiring from optics and
introduces a 3D context relation prior to enforce spatio-semantic consistency.
Along with architectural contributions, we introduce novel global scene and
local frustums losses. Experiments show we outperform the literature on all
metrics and datasets while hallucinating plausible scenery even beyond the
camera field of view. Our code and trained models are available at
https://github.com/cv-rits/MonoScene
- Abstract(参考訳): MonoSceneは3Dセマンティックシーンコンプリート(SSC)フレームワークを提案し、シーンの密集した幾何学と意味を単一の単眼RGB画像から推測する。
ssc文献と異なり,2.5次元または3次元の入力を頼りに2次元から3次元のシーンを合成する複雑な問題を解決する。
我々のフレームワークは、光学から誘発される新しい2D-3D特徴によってブリッジされた連続した2次元および3次元ユニセットに依存し、時空間整合を強制する前に3次元コンテキスト関係を導入する。
建築コントリビューションに加えて,新たなグローバルシーンと地域フラストラムの損失も紹介する。
実験では、すべてのメトリクスやデータセットの文献よりも優れており、カメラの視野を越えても、幻覚的な風景を呈している。
私たちのコードとトレーニングされたモデルはhttps://github.com/cv-rits/MonoSceneで利用可能です。
関連論文リスト
- MOSE: Monocular Semantic Reconstruction Using NeRF-Lifted Noisy Priors [11.118490283303407]
画像レベルの雑音を3次元に引き上げるニューラルネットワークセマンティック・リコンストラクション手法を提案する。
本手法は3次元空間と2次元空間の両方で正確な意味論と幾何学を生成する。
論文 参考訳(メタデータ) (2024-09-21T05:12:13Z) - Denoising Diffusion via Image-Based Rendering [54.20828696348574]
実世界の3Dシーンの高速かつ詳細な再構築と生成を可能にする最初の拡散モデルを提案する。
まず、大きな3Dシーンを効率よく正確に表現できる新しいニューラルシーン表現であるIBプレーンを導入する。
第二に,2次元画像のみを用いて,この新たな3次元シーン表現の事前学習を行うためのデノイング拡散フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-05T19:00:45Z) - SceneWiz3D: Towards Text-guided 3D Scene Composition [134.71933134180782]
既存のアプローチでは、大規模なテキスト・ツー・イメージモデルを使用して3D表現を最適化するか、オブジェクト中心のデータセット上で3Dジェネレータをトレーニングする。
テキストから高忠実度3Dシーンを合成する新しい手法であるSceneWiz3Dを紹介する。
論文 参考訳(メタデータ) (2023-12-13T18:59:30Z) - BerfScene: Bev-conditioned Equivariant Radiance Fields for Infinite 3D
Scene Generation [96.58789785954409]
本研究では,同変放射場と鳥眼視図のガイダンスを組み込んだ実用的で効率的な3次元表現を提案する。
局所的なシーンを合成し、スムーズな一貫性で縫い合わせることで、大規模で無限スケールの3Dシーンを作ります。
論文 参考訳(メタデータ) (2023-12-04T18:56:10Z) - BUOL: A Bottom-Up Framework with Occupancy-aware Lifting for Panoptic 3D
Scene Reconstruction From A Single Image [33.126045619754365]
BUOLはOccupancy-aware Liftingを備えたフレームワークであり、単一の画像からパノプティカル3Dシーンを再構築する際の2つの問題に対処する。
提案手法は,3D-Frontおよび実世界のデータセットMatterport3Dにおける最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-01T17:56:49Z) - SSR-2D: Semantic 3D Scene Reconstruction from 2D Images [54.46126685716471]
本研究では,3Dアノテーションを使わずにセマンティックなシーン再構成を行う中心的な3Dシーンモデリングタスクについて検討する。
提案手法の鍵となる考え方は,不完全な3次元再構成と対応するRGB-D画像の両方を用いたトレーニング可能なモデルの設計である。
本研究では,2つの大規模ベンチマークデータセットであるMatterPort3DとScanNetに対して,セマンティックシーン補完の最先端性能を実現する。
論文 参考訳(メタデータ) (2023-02-07T17:47:52Z) - SceneDreamer: Unbounded 3D Scene Generation from 2D Image Collections [49.802462165826554]
SceneDreamerは,非有界な3次元シーンの無条件生成モデルである。
フレームワークは,3Dアノテーションを使わずに,Wild 2Dイメージコレクションのみから学習する。
論文 参考訳(メタデータ) (2023-02-02T18:59:16Z) - Learning 3D Scene Priors with 2D Supervision [37.79852635415233]
本研究では,3次元の地平を必要とせず,レイアウトや形状の3次元シーンを学習するための新しい手法を提案する。
提案手法は, 3次元シーンを潜在ベクトルとして表現し, クラスカテゴリを特徴とするオブジェクト列に段階的に復号化することができる。
3D-FRONT と ScanNet による実験により,本手法は単一視点再構成における技術状況よりも優れていた。
論文 参考訳(メタデータ) (2022-11-25T15:03:32Z) - CompNVS: Novel View Synthesis with Scene Completion [83.19663671794596]
本稿では,スパースグリッドに基づくニューラルシーン表現を用いた生成パイプラインを提案する。
画像特徴を3次元空間に符号化し、幾何学的完備化ネットワークとその後のテクスチャ塗布ネットワークを用いて、欠落した領域を外挿する。
フォトリアリスティック画像列は、整合性関連微分可能レンダリングによって最終的に得られる。
論文 参考訳(メタデータ) (2022-07-23T09:03:13Z) - NeSF: Neural Semantic Fields for Generalizable Semantic Segmentation of
3D Scenes [25.26518805603798]
NeSFは、ポーズされたRGB画像のみから3Dセマンティックフィールドを生成する方法である。
本手法は,訓練に2次元の監督しか必要としない,真に密集した3次元シーンセグメンテーションを提供する最初の方法である。
論文 参考訳(メタデータ) (2021-11-25T21:44:54Z) - Curiosity-driven 3D Scene Structure from Single-image Self-supervision [22.527696847086574]
これまでの研究は、孤立した3Dオブジェクトを2Dのみの自己スーパービジョンから学習することを実証してきた。
ここでは、複数のオブジェクトで構成された3Dシーン全体(位置、向き、型など)に拡張することにしました。
得られたシステムは、異なる仮想または実画像の2D画像を完全な3Dシーンに変換し、それらのシーンの2D画像からのみ学習する。
論文 参考訳(メタデータ) (2020-12-02T14:17:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。