論文の概要: Vision-based 3D Semantic Scene Completion via Capture Dynamic Representations
- arxiv url: http://arxiv.org/abs/2503.06222v1
- Date: Sat, 08 Mar 2025 13:49:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:49:13.864676
- Title: Vision-based 3D Semantic Scene Completion via Capture Dynamic Representations
- Title(参考訳): キャプチャ動的表現による視覚に基づく3次元セマンティックシーン補完
- Authors: Meng Wang, Fan Wu, Yunchuan Qin, Ruihui Li, Zhuo Tang, Kenli Li,
- Abstract要約: 動的表現のキャプチャによる視覚に基づくロバストなセマンティックなシーンコンプリートを提案する。
マルチモーダルな大規模モデルを用いて2次元的意味論を抽出し,それらを3次元空間に整列させる。
シーン情報を動的・静的な特徴に分離するために,単眼・立体的深度の特徴を利用する。
- 参考スコア(独自算出の注目度): 37.61183525419993
- License:
- Abstract: The vision-based semantic scene completion task aims to predict dense geometric and semantic 3D scene representations from 2D images. However, the presence of dynamic objects in the scene seriously affects the accuracy of the model inferring 3D structures from 2D images. Existing methods simply stack multiple frames of image input to increase dense scene semantic information, but ignore the fact that dynamic objects and non-texture areas violate multi-view consistency and matching reliability. To address these issues, we propose a novel method, CDScene: Vision-based Robust Semantic Scene Completion via Capturing Dynamic Representations. First, we leverage a multimodal large-scale model to extract 2D explicit semantics and align them into 3D space. Second, we exploit the characteristics of monocular and stereo depth to decouple scene information into dynamic and static features. The dynamic features contain structural relationships around dynamic objects, and the static features contain dense contextual spatial information. Finally, we design a dynamic-static adaptive fusion module to effectively extract and aggregate complementary features, achieving robust and accurate semantic scene completion in autonomous driving scenarios. Extensive experimental results on the SemanticKITTI, SSCBench-KITTI360, and SemanticKITTI-C datasets demonstrate the superiority and robustness of CDScene over existing state-of-the-art methods.
- Abstract(参考訳): 視覚に基づくセマンティックシーン完了タスクは、2次元画像から密集した幾何学的およびセマンティックな3Dシーン表現を予測することを目的としている。
しかし、シーン内の動的物体の存在は、2次元画像から3次元構造を推定するモデルの精度に深刻な影響を及ぼす。
既存の手法では、画像入力の複数のフレームを積み重ねて濃密なシーンセマンティック情報を増やすが、動的オブジェクトや非テクスチャ領域がマルチビューの一貫性と整合性に反するという事実を無視する。
これらの問題に対処するため、我々はCDScene: Capturing Dynamic Representationsによる視覚ベースのロバスト・セマンティック・シーン・コンプリートを提案する。
まず,マルチモーダルな大規模モデルを用いて2次元的意味論を抽出し,それらを3次元空間に整列させる。
第2に、シーン情報を動的・静的な特徴に分離するために、単眼・立体的深度の特徴を利用する。
動的特徴は動的対象に関する構造的関係を含み、静的特徴は密集した文脈空間情報を含む。
最後に, 自律運転シナリオにおけるロバストかつ高精度なセマンティックシーン補完を実現するために, 相補的特徴を効果的に抽出・集約する動的静的適応融合モジュールを設計する。
SemanticKITTI, SSCBench-KITTI360, SemanticKITTI-Cデータセットの大規模な実験結果は、既存の最先端手法よりもCDSceneの優位性と堅牢性を示している。
関連論文リスト
- DENSER: 3D Gaussians Splatting for Scene Reconstruction of Dynamic Urban Environments [0.0]
動的オブジェクトの表現を大幅に強化するフレームワークであるDENSERを提案する。
提案手法は最先端の手法を広いマージンで大幅に上回る。
論文 参考訳(メタデータ) (2024-09-16T07:11:58Z) - Dynamic Scene Understanding through Object-Centric Voxelization and Neural Rendering [57.895846642868904]
オブジェクト中心学習が可能な動的シーンのための3次元生成モデルDynaVol-Sを提案する。
ボキセル化は、個々の空間的位置において、物体ごとの占有確率を推定する。
提案手法は2次元セマンティックな特徴を統合して3次元セマンティック・グリッドを作成し,複数の不整合ボクセル・グリッドを通してシーンを表現する。
論文 参考訳(メタデータ) (2024-07-30T15:33:58Z) - Shape of Motion: 4D Reconstruction from a Single Video [51.04575075620677]
本稿では,全列長3D動作を特徴とする汎用動的シーンを再構築する手法を提案する。
シーン動作をコンパクトなSE3モーションベースで表現することで,3次元動作の低次元構造を利用する。
本手法は,3D/2Dの長距離動き推定と動的シーンにおける新しいビュー合成の両面において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-07-18T17:59:08Z) - HUGS: Holistic Urban 3D Scene Understanding via Gaussian Splatting [53.6394928681237]
RGB画像に基づく都市景観の全体的理解は、難しいが重要な問題である。
我々の主な考え方は、静的な3Dガウスと動的なガウスの組合せを用いた幾何学、外観、意味論、運動の合同最適化である。
提案手法は,2次元および3次元のセマンティック情報を高精度に生成し,新たな視点をリアルタイムに描画する機能を提供する。
論文 参考訳(メタデータ) (2024-03-19T13:39:05Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - Decoupling Dynamic Monocular Videos for Dynamic View Synthesis [50.93409250217699]
動的モノクロビデオからの動的ビュー合成の課題を教師なしで解決する。
具体的には、動的物体の運動を物体の動きとカメラの動きに分離し、教師なし表面の整合性およびパッチベースのマルチビュー制約によって規則化する。
論文 参考訳(メタデータ) (2023-04-04T11:25:44Z) - Neural Groundplans: Persistent Neural Scene Representations from a
Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。
本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:41:24Z) - Empty Cities: a Dynamic-Object-Invariant Space for Visual SLAM [6.693607456009373]
本稿では,シーンの静的な画像を得るためのデータ駆動型アプローチを提案する。
本研究では,都市環境の画像を局所化とマッピングに適したリアルな静的フレームに変換するためのエンドツーエンドのディープラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-15T10:31:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。