論文の概要: HUGS: Holistic Urban 3D Scene Understanding via Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2403.12722v1
- Date: Tue, 19 Mar 2024 13:39:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 14:03:59.023632
- Title: HUGS: Holistic Urban 3D Scene Understanding via Gaussian Splatting
- Title(参考訳): HUGS:Gaussian Splattingによるホロスティックな都市3Dシーン理解
- Authors: Hongyu Zhou, Jiahao Shao, Lu Xu, Dongfeng Bai, Weichao Qiu, Bingbing Liu, Yue Wang, Andreas Geiger, Yiyi Liao,
- Abstract要約: RGB画像に基づく都市景観の全体的理解は、難しいが重要な問題である。
我々の主な考え方は、静的な3Dガウスと動的なガウスの組合せを用いた幾何学、外観、意味論、運動の合同最適化である。
提案手法は,2次元および3次元のセマンティック情報を高精度に生成し,新たな視点をリアルタイムに描画する機能を提供する。
- 参考スコア(独自算出の注目度): 53.6394928681237
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Holistic understanding of urban scenes based on RGB images is a challenging yet important problem. It encompasses understanding both the geometry and appearance to enable novel view synthesis, parsing semantic labels, and tracking moving objects. Despite considerable progress, existing approaches often focus on specific aspects of this task and require additional inputs such as LiDAR scans or manually annotated 3D bounding boxes. In this paper, we introduce a novel pipeline that utilizes 3D Gaussian Splatting for holistic urban scene understanding. Our main idea involves the joint optimization of geometry, appearance, semantics, and motion using a combination of static and dynamic 3D Gaussians, where moving object poses are regularized via physical constraints. Our approach offers the ability to render new viewpoints in real-time, yielding 2D and 3D semantic information with high accuracy, and reconstruct dynamic scenes, even in scenarios where 3D bounding box detection are highly noisy. Experimental results on KITTI, KITTI-360, and Virtual KITTI 2 demonstrate the effectiveness of our approach.
- Abstract(参考訳): RGB画像に基づく都市景観の全体的理解は、難しいが重要な問題である。
幾何学と外観の両方を理解することで、新しいビュー合成を可能にし、セマンティックラベルを解析し、動く物体を追跡する。
かなりの進歩にもかかわらず、既存のアプローチは、しばしばこのタスクの特定の側面に焦点を当て、LiDARスキャンや手動で注釈付けされた3Dバウンディングボックスのような追加のインプットを必要とする。
本稿では,3次元ガウススプラッティングによる都市景観の総合的理解のためのパイプラインを提案する。
移動物体のポーズが物理的制約によって規則化される静的な3次元ガウスと動的な3次元ガウスの組合せを用いて、幾何学、外観、意味論、運動の合同最適化を行う。
提案手法は,3次元境界ボックス検出の難易度が高いシナリオにおいても,新たな視点をリアルタイムにレンダリングし,高精度で2次元および3次元意味情報を出力し,動的シーンを再構築する機能を提供する。
KITTI,KITTI-360,Virtual KITTI 2の実験結果から,本手法の有効性が示された。
関連論文リスト
- HoloGS: Instant Depth-based 3D Gaussian Splatting with Microsoft HoloLens 2 [1.1874952582465603]
私たちは、Microsoft HoloLens 2の能力をインスタント3Dガウススプレイティングに活用しています。
HoloLensセンサーデータを利用した新しいワークフローであるHoloGSを紹介し、前処理ステップの必要性を回避した。
文化遺産像の屋外シーンと細構造植物室内シーンの2つの自撮りシーンに対するアプローチを評価した。
論文 参考訳(メタデータ) (2024-05-03T11:08:04Z) - LoopGaussian: Creating 3D Cinemagraph with Multi-view Images via Eulerian Motion Field [13.815932949774858]
シネマグラフ(Cinemagraph)は、静止画と微妙な動きの要素を組み合わせた視覚メディアの一種である。
本稿では,3次元ガウスモデルを用いて,2次元画像空間から3次元空間への撮影画像の高次化を提案する。
実験の結果,提案手法の有効性を検証し,高品質で視覚的に魅力的なシーン生成を実証した。
論文 参考訳(メタデータ) (2024-04-13T11:07:53Z) - Semantic Gaussians: Open-Vocabulary Scene Understanding with 3D Gaussian Splatting [27.974762304763694]
オープン語彙の3Dシーン理解はコンピュータビジョンにおいて重要な課題である。
本稿では,セマンティックガウシアン(SemanticGaussians)について紹介する。
提案手法は,従来のオープン語彙シーン理解手法よりも4.2%mIoUと4.0%mAccの改善を実現している。
論文 参考訳(メタデータ) (2024-03-22T21:28:19Z) - SceneWiz3D: Towards Text-guided 3D Scene Composition [134.71933134180782]
既存のアプローチでは、大規模なテキスト・ツー・イメージモデルを使用して3D表現を最適化するか、オブジェクト中心のデータセット上で3Dジェネレータをトレーニングする。
テキストから高忠実度3Dシーンを合成する新しい手法であるSceneWiz3Dを紹介する。
論文 参考訳(メタデータ) (2023-12-13T18:59:30Z) - NeurOCS: Neural NOCS Supervision for Monocular 3D Object Localization [80.3424839706698]
入力として3Dボックスをインスタンスマスクとして使用するNeurOCSを提案する。
われわれのアプローチは、実際の運転シーンから直接カテゴリレベルの形状を学習する際の洞察に依存している。
我々は、オブジェクト中心の視点からオブジェクト座標をより効果的に学習するための重要な設計選択を行う。
論文 参考訳(メタデータ) (2023-05-28T16:18:41Z) - Generating Visual Spatial Description via Holistic 3D Scene
Understanding [88.99773815159345]
視覚空間記述(VSD)は、画像内の対象物の空間的関係を記述するテキストを生成することを目的としている。
外部の3Dシーン抽出器を用いて,入力画像の3Dオブジェクトとシーン特徴を抽出する。
対象物の中心となる3次元空間シーングラフ(Go3D-S2G)を構築し,対象物の空間意味を総合的な3次元シーン内にモデル化する。
論文 参考訳(メタデータ) (2023-05-19T15:53:56Z) - SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving [98.74706005223685]
3Dシーン理解は、視覚に基づく自動運転において重要な役割を果たす。
マルチカメラ画像を用いたSurroundOcc法を提案する。
論文 参考訳(メタデータ) (2023-03-16T17:59:08Z) - RandomRooms: Unsupervised Pre-training from Synthetic Shapes and
Randomized Layouts for 3D Object Detection [138.2892824662943]
有望な解決策は、CADオブジェクトモデルで構成される合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。
最近の3次元事前学習の研究は、合成物体から他の実世界の応用へ学習した伝達特性が失敗することを示している。
本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
論文 参考訳(メタデータ) (2021-08-17T17:56:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。