論文の概要: VLScene: Vision-Language Guidance Distillation for Camera-Based 3D Semantic Scene Completion
- arxiv url: http://arxiv.org/abs/2503.06219v1
- Date: Sat, 08 Mar 2025 13:40:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:49:14.588342
- Title: VLScene: Vision-Language Guidance Distillation for Camera-Based 3D Semantic Scene Completion
- Title(参考訳): VLScene:カメラによる3Dセマンティック・シーン・コンプリートのためのビジョンランゲージ誘導蒸留
- Authors: Meng Wang, Huilong Pi, Ruihui Li, Yunchuan Qin, Zhuo Tang, Kenli Li,
- Abstract要約: カメラベースの3Dセマンティックシーン補完(SSC)は、自律運転のための密集した幾何学的およびセマンティックな知覚を提供する。
既存の手法では、オブジェクト間の明示的なセマンティックモデリングが欠如しており、3Dセマンティックコンテキストに対する認識が制限されている。
VLScene: Vision-Language Guidance Distillation for Camera-based 3D Semantic Scene Completionを提案する。
- 参考スコア(独自算出の注目度): 35.34118012715217
- License:
- Abstract: Camera-based 3D semantic scene completion (SSC) provides dense geometric and semantic perception for autonomous driving. However, images provide limited information making the model susceptible to geometric ambiguity caused by occlusion and perspective distortion. Existing methods often lack explicit semantic modeling between objects, limiting their perception of 3D semantic context. To address these challenges, we propose a novel method VLScene: Vision-Language Guidance Distillation for Camera-based 3D Semantic Scene Completion. The key insight is to use the vision-language model to introduce high-level semantic priors to provide the object spatial context required for 3D scene understanding. Specifically, we design a vision-language guidance distillation process to enhance image features, which can effectively capture semantic knowledge from the surrounding environment and improve spatial context reasoning. In addition, we introduce a geometric-semantic sparse awareness mechanism to propagate geometric structures in the neighborhood and enhance semantic information through contextual sparse interactions. Experimental results demonstrate that VLScene achieves rank-1st performance on challenging benchmarks--SemanticKITTI and SSCBench-KITTI-360, yielding remarkably mIoU scores of 17.52 and 19.10, respectively.
- Abstract(参考訳): カメラベースの3Dセマンティックシーン補完(SSC)は、自律運転のための密集した幾何学的およびセマンティックな知覚を提供する。
しかし、画像は、オクルージョンや視点歪みによって引き起こされる幾何学的曖昧さの影響を受けやすいような限られた情報を提供する。
既存の手法では、オブジェクト間の明示的なセマンティックモデリングが欠如しており、3Dセマンティックコンテキストに対する認識が制限されている。
これらの課題に対処するために、カメラを用いた3Dセマンティックシーンコンプリートのためのビジョンランゲージ誘導蒸留法(VLScene: Vision-Language Guidance Distillation)を提案する。
重要な洞察は、3次元シーン理解に必要なオブジェクト空間コンテキストを提供するために、視覚言語モデルを使用して高レベルなセマンティック先行を導入することである。
具体的には,周辺環境からのセマンティックな知識を効果的に把握し,空間的文脈推論を改善することで,画像特徴を高めるための視覚言語によるガイダンス蒸留プロセスの設計を行う。
さらに,近傍の幾何学的構造を伝播させ,文脈的スパース相互作用を通じて意味情報を強化するための幾何学的意味的スパース認識機構を導入する。
実験の結果、VLSceneは挑戦的なベンチマークでランク1位(SemanticKITTIとSSCBench-KITTI-360)を達成し、それぞれ17.52と19.10のmIoUスコアを得た。
関連論文リスト
- 3D Vision-Language Gaussian Splatting [29.047044145499036]
マルチモーダルな3Dシーン理解は、ロボット工学、自律運転、バーチャル/拡張現実において重要な応用である。
本稿では,視覚的・意味的な相違点を適切に扱えるソリューションを提案する。
また、既存のビュー間のセマンティック一貫性を改善するために、カメラビューブレンディング技術を採用している。
論文 参考訳(メタデータ) (2024-10-10T03:28:29Z) - MOSE: Monocular Semantic Reconstruction Using NeRF-Lifted Noisy Priors [11.118490283303407]
画像レベルの雑音を3次元に引き上げるニューラルネットワークセマンティック・リコンストラクション手法を提案する。
本手法は3次元空間と2次元空間の両方で正確な意味論と幾何学を生成する。
論文 参考訳(メタデータ) (2024-09-21T05:12:13Z) - Unlocking Textual and Visual Wisdom: Open-Vocabulary 3D Object Detection Enhanced by Comprehensive Guidance from Text and Image [70.02187124865627]
Open-vocabulary 3D object detection (OV-3DDet) は、新しい3Dシーン内において、目に見えないものの両方をローカライズし、認識することを目的としている。
視覚基盤モデルを利用して、3Dシーンにおける新しいクラスを発見するための画像的ガイダンスを提供する。
オープン語彙の3Dオブジェクト検出における基礎モデルの可能性を明らかにするとともに,精度と一般化の大幅な向上を示す。
論文 参考訳(メタデータ) (2024-07-07T04:50:04Z) - Know Your Neighbors: Improving Single-View Reconstruction via Spatial Vision-Language Reasoning [119.99066522299309]
KYNは、各点の密度を予測するために意味的および空間的文脈を理由として、単一視点シーン再構築のための新しい手法である。
その結果,KYNは3次元点ごとの密度の予測よりも3次元形状回復を改善することがわかった。
我々は,KITTI-360のシーンとオブジェクトの再構成における最先端の成果を達成し,以前の作業と比べてゼロショットの一般化が向上したことを示す。
論文 参考訳(メタデータ) (2024-04-04T17:59:59Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - HaLo-NeRF: Learning Geometry-Guided Semantics for Exploring Unconstrained Photo Collections [19.05215193265488]
本稿では,大規模ランドマークを描写したシーンのニューラル表現と,シーン内の意味領域を記述したテキストを結合するローカライズシステムを提案する。
我々のアプローチは、宇宙空間に物理的に接地した画像が、新しい概念をローカライズするための強力な監視信号を提供するという前提に基づいている。
以上の結果から,HaLo-NeRFはアーキテクチャのランドマークに関連するさまざまな意味概念を正確にローカライズできることがわかった。
論文 参考訳(メタデータ) (2024-02-14T14:02:04Z) - DepthSSC: Monocular 3D Semantic Scene Completion via Depth-Spatial Alignment and Voxel Adaptation [2.949710700293865]
単眼カメラのみを用いたセマンティックシーン補完手法DepthSSCを提案する。
DepthSSCがGeometric-Aware Voxelization (GAV)とSpatial Transformation Graph Fusion (ST-GF)モジュールを統合
DepthSSCは複雑な3次元構造を効果的に捉え、最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-11-28T01:47:51Z) - Lowis3D: Language-Driven Open-World Instance-Level 3D Scene
Understanding [57.47315482494805]
オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未知のオブジェクトカテゴリを特定し、認識することを目的としている。
モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。
本稿では,3Dシーンのキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習型視覚言語基盤モデルを提案する。
論文 参考訳(メタデータ) (2023-08-01T07:50:14Z) - Self-Supervised Image Representation Learning with Geometric Set
Consistency [50.12720780102395]
本稿では,3次元幾何整合性に基づく自己教師付き画像表現学習法を提案する。
具体的には、画像ビュー内の特徴整合性を強化するために、コントラスト学習フレームワークに3次元幾何学的整合性を導入する。
論文 参考訳(メタデータ) (2022-03-29T08:57:33Z) - LanguageRefer: Spatial-Language Model for 3D Visual Grounding [72.7618059299306]
3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。
本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
論文 参考訳(メタデータ) (2021-07-07T18:55:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。