論文の概要: HUGS: Holistic Urban 3D Scene Understanding via Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2403.12722v1
- Date: Tue, 19 Mar 2024 13:39:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 14:03:59.023632
- Title: HUGS: Holistic Urban 3D Scene Understanding via Gaussian Splatting
- Title(参考訳): HUGS:Gaussian Splattingによるホロスティックな都市3Dシーン理解
- Authors: Hongyu Zhou, Jiahao Shao, Lu Xu, Dongfeng Bai, Weichao Qiu, Bingbing Liu, Yue Wang, Andreas Geiger, Yiyi Liao,
- Abstract要約: RGB画像に基づく都市景観の全体的理解は、難しいが重要な問題である。
我々の主な考え方は、静的な3Dガウスと動的なガウスの組合せを用いた幾何学、外観、意味論、運動の合同最適化である。
提案手法は,2次元および3次元のセマンティック情報を高精度に生成し,新たな視点をリアルタイムに描画する機能を提供する。
- 参考スコア(独自算出の注目度): 53.6394928681237
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Holistic understanding of urban scenes based on RGB images is a challenging yet important problem. It encompasses understanding both the geometry and appearance to enable novel view synthesis, parsing semantic labels, and tracking moving objects. Despite considerable progress, existing approaches often focus on specific aspects of this task and require additional inputs such as LiDAR scans or manually annotated 3D bounding boxes. In this paper, we introduce a novel pipeline that utilizes 3D Gaussian Splatting for holistic urban scene understanding. Our main idea involves the joint optimization of geometry, appearance, semantics, and motion using a combination of static and dynamic 3D Gaussians, where moving object poses are regularized via physical constraints. Our approach offers the ability to render new viewpoints in real-time, yielding 2D and 3D semantic information with high accuracy, and reconstruct dynamic scenes, even in scenarios where 3D bounding box detection are highly noisy. Experimental results on KITTI, KITTI-360, and Virtual KITTI 2 demonstrate the effectiveness of our approach.
- Abstract(参考訳): RGB画像に基づく都市景観の全体的理解は、難しいが重要な問題である。
幾何学と外観の両方を理解することで、新しいビュー合成を可能にし、セマンティックラベルを解析し、動く物体を追跡する。
かなりの進歩にもかかわらず、既存のアプローチは、しばしばこのタスクの特定の側面に焦点を当て、LiDARスキャンや手動で注釈付けされた3Dバウンディングボックスのような追加のインプットを必要とする。
本稿では,3次元ガウススプラッティングによる都市景観の総合的理解のためのパイプラインを提案する。
移動物体のポーズが物理的制約によって規則化される静的な3次元ガウスと動的な3次元ガウスの組合せを用いて、幾何学、外観、意味論、運動の合同最適化を行う。
提案手法は,3次元境界ボックス検出の難易度が高いシナリオにおいても,新たな視点をリアルタイムにレンダリングし,高精度で2次元および3次元意味情報を出力し,動的シーンを再構築する機能を提供する。
KITTI,KITTI-360,Virtual KITTI 2の実験結果から,本手法の有効性が示された。
関連論文リスト
- Dynamic Scene Understanding through Object-Centric Voxelization and Neural Rendering [57.895846642868904]
オブジェクト中心学習が可能な動的シーンのための3次元生成モデルDynaVol-Sを提案する。
ボキセル化は、個々の空間的位置において、物体ごとの占有確率を推定する。
提案手法は2次元セマンティックな特徴を統合して3次元セマンティック・グリッドを作成し,複数の不整合ボクセル・グリッドを通してシーンを表現する。
論文 参考訳(メタデータ) (2024-07-30T15:33:58Z) - DGD: Dynamic 3D Gaussians Distillation [14.7298711927857]
単一の単眼映像を入力として,動的3次元セマンティックラディアンス場を学習する作業に取り組む。
我々の学習したセマンティック・ラディアンス・フィールドは、動的3Dシーンの色と幾何学的性質だけでなく、ポイントごとのセマンティクスをキャプチャする。
動的3Dシーンの外観と意味を統一した3D表現であるDGDを提案する。
論文 参考訳(メタデータ) (2024-05-29T17:52:22Z) - HoloGS: Instant Depth-based 3D Gaussian Splatting with Microsoft HoloLens 2 [1.1874952582465603]
私たちは、Microsoft HoloLens 2の能力をインスタント3Dガウススプレイティングに活用しています。
HoloLensセンサーデータを利用した新しいワークフローであるHoloGSを紹介し、前処理ステップの必要性を回避した。
文化遺産像の屋外シーンと細構造植物室内シーンの2つの自撮りシーンに対するアプローチを評価した。
論文 参考訳(メタデータ) (2024-05-03T11:08:04Z) - Semantic Gaussians: Open-Vocabulary Scene Understanding with 3D Gaussian Splatting [27.974762304763694]
セマンティック・ガウシアン(Semantic Gaussians)は,3次元ガウシアン・スプレイティングをベースとした,新しいオープン語彙シーン理解手法である。
既存の手法とは異なり、様々な2次元意味的特徴を3次元ガウスの新たな意味的構成要素にマッピングする多目的投影手法を設計する。
我々は,高速な推論のために,生の3Dガウスから意味成分を直接予測する3Dセマンティックネットワークを構築した。
論文 参考訳(メタデータ) (2024-03-22T21:28:19Z) - SceneWiz3D: Towards Text-guided 3D Scene Composition [134.71933134180782]
既存のアプローチでは、大規模なテキスト・ツー・イメージモデルを使用して3D表現を最適化するか、オブジェクト中心のデータセット上で3Dジェネレータをトレーニングする。
テキストから高忠実度3Dシーンを合成する新しい手法であるSceneWiz3Dを紹介する。
論文 参考訳(メタデータ) (2023-12-13T18:59:30Z) - NeurOCS: Neural NOCS Supervision for Monocular 3D Object Localization [80.3424839706698]
入力として3Dボックスをインスタンスマスクとして使用するNeurOCSを提案する。
われわれのアプローチは、実際の運転シーンから直接カテゴリレベルの形状を学習する際の洞察に依存している。
我々は、オブジェクト中心の視点からオブジェクト座標をより効果的に学習するための重要な設計選択を行う。
論文 参考訳(メタデータ) (2023-05-28T16:18:41Z) - Generating Visual Spatial Description via Holistic 3D Scene
Understanding [88.99773815159345]
視覚空間記述(VSD)は、画像内の対象物の空間的関係を記述するテキストを生成することを目的としている。
外部の3Dシーン抽出器を用いて,入力画像の3Dオブジェクトとシーン特徴を抽出する。
対象物の中心となる3次元空間シーングラフ(Go3D-S2G)を構築し,対象物の空間意味を総合的な3次元シーン内にモデル化する。
論文 参考訳(メタデータ) (2023-05-19T15:53:56Z) - SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving [98.74706005223685]
3Dシーン理解は、視覚に基づく自動運転において重要な役割を果たす。
マルチカメラ画像を用いたSurroundOcc法を提案する。
論文 参考訳(メタデータ) (2023-03-16T17:59:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。