Fugu-MT 論文翻訳(概要): HUGS: Holistic Urban 3D Scene Understanding via Gaussian Splatting

論文の概要: HUGS: Holistic Urban 3D Scene Understanding via Gaussian Splatting

arxiv url: http://arxiv.org/abs/2403.12722v1
Date: Tue, 19 Mar 2024 13:39:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-20 14:03:59.023632
Title: HUGS: Holistic Urban 3D Scene Understanding via Gaussian Splatting
Title（参考訳）: HUGS:Gaussian Splattingによるホロスティックな都市3Dシーン理解
Authors: Hongyu Zhou, Jiahao Shao, Lu Xu, Dongfeng Bai, Weichao Qiu, Bingbing Liu, Yue Wang, Andreas Geiger, Yiyi Liao,
Abstract要約: RGB画像に基づく都市景観の全体的理解は、難しいが重要な問題である。我々の主な考え方は、静的な3Dガウスと動的なガウスの組合せを用いた幾何学、外観、意味論、運動の合同最適化である。提案手法は,2次元および3次元のセマンティック情報を高精度に生成し,新たな視点をリアルタイムに描画する機能を提供する。
参考スコア（独自算出の注目度）: 53.6394928681237
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Holistic understanding of urban scenes based on RGB images is a challenging yet important problem. It encompasses understanding both the geometry and appearance to enable novel view synthesis, parsing semantic labels, and tracking moving objects. Despite considerable progress, existing approaches often focus on specific aspects of this task and require additional inputs such as LiDAR scans or manually annotated 3D bounding boxes. In this paper, we introduce a novel pipeline that utilizes 3D Gaussian Splatting for holistic urban scene understanding. Our main idea involves the joint optimization of geometry, appearance, semantics, and motion using a combination of static and dynamic 3D Gaussians, where moving object poses are regularized via physical constraints. Our approach offers the ability to render new viewpoints in real-time, yielding 2D and 3D semantic information with high accuracy, and reconstruct dynamic scenes, even in scenarios where 3D bounding box detection are highly noisy. Experimental results on KITTI, KITTI-360, and Virtual KITTI 2 demonstrate the effectiveness of our approach.
Abstract（参考訳）: RGB画像に基づく都市景観の全体的理解は、難しいが重要な問題である。幾何学と外観の両方を理解することで、新しいビュー合成を可能にし、セマンティックラベルを解析し、動く物体を追跡する。かなりの進歩にもかかわらず、既存のアプローチは、しばしばこのタスクの特定の側面に焦点を当て、LiDARスキャンや手動で注釈付けされた3Dバウンディングボックスのような追加のインプットを必要とする。本稿では,3次元ガウススプラッティングによる都市景観の総合的理解のためのパイプラインを提案する。移動物体のポーズが物理的制約によって規則化される静的な3次元ガウスと動的な3次元ガウスの組合せを用いて、幾何学、外観、意味論、運動の合同最適化を行う。提案手法は,3次元境界ボックス検出の難易度が高いシナリオにおいても,新たな視点をリアルタイムにレンダリングし,高精度で2次元および3次元意味情報を出力し,動的シーンを再構築する機能を提供する。 KITTI,KITTI-360,Virtual KITTI 2の実験結果から,本手法の有効性が示された。

関連論文リスト

Visibility-Uncertainty-guided 3D Gaussian Inpainting via Scene Conceptional Learning [63.94919846010485]
3DGI)は、複数の入力ビューから補完的な視覚的・意味的手がかりを効果的に活用することが困難である。本稿では,異なる入力ビュー間での3Dポイントの視認性不確実性を計測し,それらを用いて3DGIを誘導する手法を提案する。 ViSibility-uncerTainty-guided 3DGIとシーンコンセプトAl学習を統合し,新しい3DGIフレームワークであるVISTAを構築した。
論文参考訳（メタデータ） (2025-04-23T06:21:11Z)
EVolSplat: Efficient Volume-based Gaussian Splatting for Urban View Synthesis [61.1662426227688]
既存のNeRFおよび3DGSベースの手法は、フォトリアリスティックレンダリングを実現する上で有望な結果を示すが、スローでシーンごとの最適化が必要である。本稿では,都市景観を対象とした効率的な3次元ガウススプレイティングモデルEVolSplatを紹介する。
論文参考訳（メタデータ） (2025-03-26T02:47:27Z)
GSemSplat: Generalizable Semantic 3D Gaussian Splatting from Uncalibrated Image Pairs [33.74118487769923]
GSemSplatは,3次元ガウスに関連付けられた意味表現を,シーンごとの最適化や高密度画像収集,キャリブレーションなしに学習するフレームワークである。本研究では,2次元空間における領域固有の意味的特徴と文脈認識的意味的特徴を両立させる二重機能アプローチを用いる。
論文参考訳（メタデータ） (2024-12-22T09:06:58Z)
HybridGS: Decoupling Transients and Statics with 2D and 3D Gaussian Splatting [47.67153284714988]
画像ごとの過渡的対象に対して2次元ガウスアンを用いて,ハイブリッドGSと呼ばれる新しいハイブリッド表現を提案する。また、ロバストなトレーニングと高品質なビュー合成を実現するために、単純かつ効果的なマルチステージトレーニング戦略を提案する。ベンチマークデータセットを用いた実験は、室内および屋外の両方のシーンにおいて、新しいビュー合成の最先端性能を示す。
論文参考訳（メタデータ） (2024-12-05T03:20:35Z)
Articulate3D: Holistic Understanding of 3D Scenes as Universal Scene Description [56.69740649781989]
3Dシーン理解は、コンピュータビジョンにおける長年の課題であり、混合現実、ウェアラブルコンピューティング、そして具体化されたAIを実現する上で重要な要素である。室内280のシーンに高品質な手動アノテーションを付加した専門的な3DデータセットであるArticulate3Dを紹介する。我々はまた,部分分割を同時に予測できる新しい統一フレームワークUSDNetと,オブジェクトの動作属性の完全な仕様を提示する。
論文参考訳（メタデータ） (2024-12-02T11:33:55Z)
Bootstraping Clustering of Gaussians for View-consistent 3D Scene Understanding [59.51535163599723]
FreeGSは、教師なしセマンティック組み込み3DGSフレームワークで、2Dラベルを必要とせずに、ビュー一貫性のある3Dシーン理解を実現する。我々は、FreeGSが複雑なデータ前処理作業の負荷を回避しつつ、最先端のメソッドと互換性があることを示す。
論文参考訳（メタデータ） (2024-11-29T08:52:32Z)
Dynamic Scene Understanding through Object-Centric Voxelization and Neural Rendering [57.895846642868904]
オブジェクト中心学習が可能な動的シーンのための3次元生成モデルDynaVol-Sを提案する。ボキセル化は、個々の空間的位置において、物体ごとの占有確率を推定する。提案手法は2次元セマンティックな特徴を統合して3次元セマンティック・グリッドを作成し,複数の不整合ボクセル・グリッドを通してシーンを表現する。
論文参考訳（メタデータ） (2024-07-30T15:33:58Z)
DGD: Dynamic 3D Gaussians Distillation [14.7298711927857]
単一の単眼映像を入力として,動的3次元セマンティックラディアンス場を学習する作業に取り組む。我々の学習したセマンティック・ラディアンス・フィールドは、動的3Dシーンの色と幾何学的性質だけでなく、ポイントごとのセマンティクスをキャプチャする。動的3Dシーンの外観と意味を統一した3D表現であるDGDを提案する。
論文参考訳（メタデータ） (2024-05-29T17:52:22Z)
HoloGS: Instant Depth-based 3D Gaussian Splatting with Microsoft HoloLens 2 [1.1874952582465603]
私たちは、Microsoft HoloLens 2の能力をインスタント3Dガウススプレイティングに活用しています。 HoloLensセンサーデータを利用した新しいワークフローであるHoloGSを紹介し、前処理ステップの必要性を回避した。文化遺産像の屋外シーンと細構造植物室内シーンの2つの自撮りシーンに対するアプローチを評価した。
論文参考訳（メタデータ） (2024-05-03T11:08:04Z)
Semantic Gaussians: Open-Vocabulary Scene Understanding with 3D Gaussian Splatting [27.974762304763694]
セマンティック・ガウシアン(Semantic Gaussians)は,3次元ガウシアン・スプレイティングをベースとした,新しいオープン語彙シーン理解手法である。既存の手法とは異なり、様々な2次元意味的特徴を3次元ガウスの新たな意味的構成要素にマッピングする多目的投影手法を設計する。我々は,高速な推論のために,生の3Dガウスから意味成分を直接予測する3Dセマンティックネットワークを構築した。
論文参考訳（メタデータ） (2024-03-22T21:28:19Z)
SceneWiz3D: Towards Text-guided 3D Scene Composition [134.71933134180782]
既存のアプローチでは、大規模なテキスト・ツー・イメージモデルを使用して3D表現を最適化するか、オブジェクト中心のデータセット上で3Dジェネレータをトレーニングする。テキストから高忠実度3Dシーンを合成する新しい手法であるSceneWiz3Dを紹介する。
論文参考訳（メタデータ） (2023-12-13T18:59:30Z)
NeurOCS: Neural NOCS Supervision for Monocular 3D Object Localization [80.3424839706698]
入力として3Dボックスをインスタンスマスクとして使用するNeurOCSを提案する。われわれのアプローチは、実際の運転シーンから直接カテゴリレベルの形状を学習する際の洞察に依存している。我々は、オブジェクト中心の視点からオブジェクト座標をより効果的に学習するための重要な設計選択を行う。
論文参考訳（メタデータ） (2023-05-28T16:18:41Z)
Generating Visual Spatial Description via Holistic 3D Scene Understanding [88.99773815159345]
視覚空間記述(VSD)は、画像内の対象物の空間的関係を記述するテキストを生成することを目的としている。外部の3Dシーン抽出器を用いて,入力画像の3Dオブジェクトとシーン特徴を抽出する。対象物の中心となる3次元空間シーングラフ(Go3D-S2G)を構築し,対象物の空間意味を総合的な3次元シーン内にモデル化する。
論文参考訳（メタデータ） (2023-05-19T15:53:56Z)
SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving [98.74706005223685]
3Dシーン理解は、視覚に基づく自動運転において重要な役割を果たす。マルチカメラ画像を用いたSurroundOcc法を提案する。
論文参考訳（メタデータ） (2023-03-16T17:59:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。