論文の概要: Fake It To Make It: Virtual Multiviews to Enhance Monocular Indoor Semantic Scene Completion
- arxiv url: http://arxiv.org/abs/2503.05086v1
- Date: Fri, 07 Mar 2025 02:09:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 12:23:31.974912
- Title: Fake It To Make It: Virtual Multiviews to Enhance Monocular Indoor Semantic Scene Completion
- Title(参考訳): Fake it to Make it:仮想マルチビューでモノクロの室内シーンが完成する
- Authors: Anith Selvakumar, Manasa Bharadwaj,
- Abstract要約: Indoor Semantic Scene Completionは、屋内シーンの単一のRGB画像から3Dセマンティック占有マップを再構築することを目的としている。
我々は、新しいビュー合成とマルチビュー融合を活用する革新的なアプローチを導入する。
我々は、NYUv2データセット上の既存のSSCネットワークと統合した場合、Scene Completionの最大2.8%、Semantic Scene Completionの4.9%のIoUスコアの改善を実証する。
- 参考スコア(独自算出の注目度): 0.8669877024051931
- License:
- Abstract: Monocular Indoor Semantic Scene Completion (SSC) aims to reconstruct a 3D semantic occupancy map from a single RGB image of an indoor scene, inferring spatial layout and object categories from 2D image cues. The challenge of this task arises from the depth, scale, and shape ambiguities that emerge when transforming a 2D image into 3D space, particularly within the complex and often heavily occluded environments of indoor scenes. Current SSC methods often struggle with these ambiguities, resulting in distorted or missing object representations. To overcome these limitations, we introduce an innovative approach that leverages novel view synthesis and multiview fusion. Specifically, we demonstrate how virtual cameras can be placed around the scene to emulate multiview inputs that enhance contextual scene information. We also introduce a Multiview Fusion Adaptor (MVFA) to effectively combine the multiview 3D scene predictions into a unified 3D semantic occupancy map. Finally, we identify and study the inherent limitation of generative techniques when applied to SSC, specifically the Novelty-Consistency tradeoff. Our system, GenFuSE, demonstrates IoU score improvements of up to 2.8% for Scene Completion and 4.9% for Semantic Scene Completion when integrated with existing SSC networks on the NYUv2 dataset. This work introduces GenFuSE as a standard framework for advancing monocular SSC with synthesized inputs.
- Abstract(参考訳): SSC (Monocular Indoor Semantic Scene Completion) は、屋内シーンの1つのRGB画像から3次元セマンティック占有マップを再構成し、2次元画像キューから空間配置とオブジェクトカテゴリを推定することを目的としている。
このタスクの課題は、2D画像を3D空間に変換する際に現れる深さ、スケール、形状の曖昧さから生じている。
現在のSSCメソッドは、しばしばこれらの曖昧さに悩まされ、歪んだりオブジェクト表現が失われる。
これらの制約を克服するために、新しいビュー合成とマルチビュー融合を活用する革新的なアプローチを導入する。
具体的には、仮想カメラをシーン周辺に配置して、コンテキスト情報を強化するマルチビュー入力をエミュレートする方法を実証する。
また,Multiview Fusion Adaptor (MVFA)を導入し,マルチビュー3次元シーン予測を統一された3次元セマンティック占有マップに効果的に組み合わせる。
最後に、SSC、特にノベルティ・一貫性のトレードオフに適用する場合、生成技術の本質的な限界を特定し、研究する。
我々のシステムであるGenFuSEは、NYUv2データセット上の既存のSSCネットワークと統合した場合、Scene Completionの最大2.8%、Semantic Scene Completionの4.9%の改善をIoUに示す。
本研究は, 単分子SSCを合成入力で前進させるための標準フレームワークとしてGenFuSEを紹介する。
関連論文リスト
- HybridGS: Decoupling Transients and Statics with 2D and 3D Gaussian Splatting [47.67153284714988]
画像ごとの過渡的対象に対して2次元ガウスアンを用いて,ハイブリッドGSと呼ばれる新しいハイブリッド表現を提案する。
また、ロバストなトレーニングと高品質なビュー合成を実現するために、単純かつ効果的なマルチステージトレーニング戦略を提案する。
ベンチマークデータセットを用いた実験は、室内および屋外の両方のシーンにおいて、新しいビュー合成の最先端性能を示す。
論文 参考訳(メタデータ) (2024-12-05T03:20:35Z) - 3D Feature Distillation with Object-Centric Priors [9.626027459292926]
CLIPのような2Dビジョン言語モデルは、2Dイメージのオープン語彙グラウンドディングに優れた機能を備えているため、広く普及している。
最近の研究は、特徴蒸留によって2D CLIP機能を3Dに高めることを目的としているが、シーン固有のニューラルネットワークを学ぶか、室内のスキャンデータにフォーカスする。
提案手法は, 3次元CLIPの特徴を再構築し, 接地能力と空間的整合性を改善した。
論文 参考訳(メタデータ) (2024-06-26T20:16:49Z) - Zero-Shot Multi-Object Scene Completion [59.325611678171974]
1枚のRGB-D画像から複雑なシーンにおける複数の見えない物体の完全な形状を復元する3Dシーン補完法を提案する。
提案手法は, 合成および実世界の両方のデータセットにおいて, 現在の最先端技術よりも優れている。
論文 参考訳(メタデータ) (2024-03-21T17:59:59Z) - Sat2Scene: 3D Urban Scene Generation from Satellite Images with Diffusion [77.34078223594686]
本稿では,3次元スパース表現に拡散モデルを導入し,それらをニューラルレンダリング技術と組み合わせることで,直接3次元シーン生成のための新しいアーキテクチャを提案する。
具体的には、まず3次元拡散モデルを用いて、所定の幾何学の点レベルのテクスチャ色を生成し、次にフィードフォワード方式でシーン表現に変換する。
2つの都市規模データセットを用いた実験により,衛星画像から写真リアルなストリートビュー画像シーケンスとクロスビュー都市シーンを生成する能力を示した。
論文 参考訳(メタデータ) (2024-01-19T16:15:37Z) - SceneWiz3D: Towards Text-guided 3D Scene Composition [134.71933134180782]
既存のアプローチでは、大規模なテキスト・ツー・イメージモデルを使用して3D表現を最適化するか、オブジェクト中心のデータセット上で3Dジェネレータをトレーニングする。
テキストから高忠実度3Dシーンを合成する新しい手法であるSceneWiz3Dを紹介する。
論文 参考訳(メタデータ) (2023-12-13T18:59:30Z) - NDC-Scene: Boost Monocular 3D Semantic Scene Completion in Normalized
Device Coordinates Space [77.6067460464962]
SSC(Monocular 3D Semantic Scene Completion)は、単一の画像から複雑なセマンティックスや幾何学的形状を予測し、3D入力を必要としないため、近年大きな注目を集めている。
我々は,3次元空間に投影された2次元特徴の特徴的曖昧さ,3次元畳み込みのPose Ambiguity,深さの異なる3次元畳み込みにおける不均衡など,現在の最先端手法におけるいくつかの重要な問題を明らかにする。
シーン補完ネットワーク(NDC-Scene)を考案し,2を直接拡張する。
論文 参考訳(メタデータ) (2023-09-26T02:09:52Z) - CompNVS: Novel View Synthesis with Scene Completion [83.19663671794596]
本稿では,スパースグリッドに基づくニューラルシーン表現を用いた生成パイプラインを提案する。
画像特徴を3次元空間に符号化し、幾何学的完備化ネットワークとその後のテクスチャ塗布ネットワークを用いて、欠落した領域を外挿する。
フォトリアリスティック画像列は、整合性関連微分可能レンダリングによって最終的に得られる。
論文 参考訳(メタデータ) (2022-07-23T09:03:13Z) - Recognizing Scenes from Novel Viewpoints [99.90914180489456]
人間は、少数の2Dビューから3Dのシーンを知覚することができる。AIエージェントは、少数の画像しか持たない任意の視点からシーンを認識することで、シーンとそのオブジェクトと効率的に対話することができる。
本稿では,新しいシーンのいくつかのRGB画像を入力として取り込んで,そのシーンを意味カテゴリーに分類することで,新たな視点から認識するモデルを提案する。
論文 参考訳(メタデータ) (2021-12-02T18:59:40Z) - MonoScene: Monocular 3D Semantic Scene Completion [9.92186106077902]
Monoは3Dセマンティックシーンコンプリート(SSC)フレームワークを提案し、シーンの密集した幾何学と意味を単一の単分子画像から推測する。
我々のフレームワークは、光学から刺激を受ける新しい2-3次元特徴投影によってブリッジされた連続した2次元および3次元ユニセットに依存している。
論文 参考訳(メタデータ) (2021-12-01T18:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。