Fugu-MT 論文翻訳(概要): VLMFusionOcc3D: VLM Assisted Multi-Modal 3D Semantic Occupancy Prediction

論文の概要: VLMFusionOcc3D: VLM Assisted Multi-Modal 3D Semantic Occupancy Prediction

arxiv url: http://arxiv.org/abs/2603.02609v1
Date: Tue, 03 Mar 2026 05:22:28 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-04 21:38:10.645098
Title: VLMFusionOcc3D: VLM Assisted Multi-Modal 3D Semantic Occupancy Prediction
Title（参考訳）: VLMFusionOcc3D:VLMによるマルチモーダル3次元セマンティック動作予測
Authors: A. Enes Doruk, Hasan F. Ates,
Abstract要約: VLMFusionOcc3Dは、自律運転における高密度な3Dセマンティック占有率予測のための堅牢なマルチモーダルフレームワークである。我々は,車両メタデータと気象条件付きプロンプトを利用した動的ゲーティング機構であるWeather-Aware Adaptive Fusionを導入する。我々のアプローチは、複雑な都市ナビゲーションのためのスケーラブルで堅牢なソリューションを提供するため、挑戦的な気象シナリオにおいて、大幅な改善を実現している。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper introduces VLMFusionOcc3D, a robust multimodal framework for dense 3D semantic occupancy prediction in autonomous driving. Current voxel-based occupancy models often struggle with semantic ambiguity in sparse geometric grids and performance degradation under adverse weather conditions. To address these challenges, we leverage the rich linguistic priors of Vision-Language Models (VLMs) to anchor ambiguous voxel features to stable semantic concepts. Our framework initiates with a dual-branch feature extraction pipeline that projects multi-view images and LiDAR point clouds into a unified voxel space. We propose Instance-driven VLM Attention (InstVLM), which utilizes gated cross-attention and LoRA-adapted CLIP embeddings to inject high-level semantic and geographic priors directly into the 3D voxels. Furthermore, we introduce Weather-Aware Adaptive Fusion (WeathFusion), a dynamic gating mechanism that utilizes vehicle metadata and weather-conditioned prompts to re-weight sensor contributions based on real-time environmental reliability. To ensure structural consistency, a Depth-Aware Geometric Alignment (DAGA) loss is employed to align dense camera-derived geometry with sparse, spatially accurate LiDAR returns. Extensive experiments on the nuScenes and SemanticKITTI datasets demonstrate that our plug-and-play modules consistently enhance the performance of state-of-the-art voxel-based baselines. Notably, our approach achieves significant improvements in challenging weather scenarios, offering a scalable and robust solution for complex urban navigation.
Abstract（参考訳）: 本稿では、自律運転における高密度な3次元セマンティック占有予測のための頑健なマルチモーダルフレームワークであるVLMFusionOcc3Dを紹介する。現在のボクセルベースの占有モデルは、粗い幾何学グリッドにおける意味的曖昧さと、悪天候下での性能劣化に悩まされることが多い。これらの課題に対処するために、視覚言語モデル(VLM)の豊富な言語的前提を活用し、曖昧なボクセル特徴を安定的な意味概念に固定する。我々のフレームワークは、マルチビュー画像とLiDAR点雲を統一されたボクセル空間に投影するデュアルブランチ機能抽出パイプラインで開始する。ゲート型クロスアテンションとLoRA対応CLIPを組み込んだインスタンス駆動型VLMアテンション(InstVLM)を提案する。さらに、車両メタデータと気象条件付きプロンプトを利用した動的ゲーティング機構であるWeathFusionを導入し、リアルタイム環境の信頼性に基づいたセンサコントリビューションを再重み付けする。構造的整合性を確保するため、密度の高いカメラ由来の幾何と空間的精度の低いLiDARリターンを整列するために、DAGA(Depth-Aware Geometric Alignment)損失を用いる。 nuScenesとSemanticKITTIデータセットの大規模な実験により、我々のプラグイン・アンド・プレイモジュールは、最先端のボクセルベースラインの性能を一貫して向上することを示した。特に、我々のアプローチは、複雑な都市ナビゲーションのためのスケーラブルで堅牢なソリューションを提供する、挑戦的な気象シナリオにおいて、大幅な改善を実現している。

関連論文リスト

SoPE: Spherical Coordinate-Based Positional Embedding for Enhancing Spatial Perception of 3D LVLMs [21.891285551179365]
Spherical Coordinate-based Positional Embedding (SoPE)を紹介する。本手法は,3次元球面座標空間に点-クラウドトークンのインデックスをマッピングし,空間位置と方向角の統一モデリングを可能にする。この定式化は、点クラウドデータの固有の幾何学的構造を保持し、空間的認識を高め、マルチモーダル学習のためのより一貫性があり表現力のある幾何学的表現をもたらす。
論文参考訳（メタデータ） (2026-02-26T07:42:15Z)
HiST-VLA: A Hierarchical Spatio-Temporal Vision-Language-Action Model for End-to-End Autonomous Driving [20.266736153749417]
Vision-Language-Action(VLA)モデルは、マルチモーダル理解を通じて自律運転に有望な機能を提供する。安全クリティカルなシナリオにおけるそれらの利用は、数値推論、弱い3次元空間認識、文脈に対する高い感度を含む固有の制限によって制限されている。信頼軌道生成用に設計された階層型時空間VLAモデルであるHiST-VLAを提案する。
論文参考訳（メタデータ） (2026-02-11T07:08:33Z)
MambaFusion: Adaptive State-Space Fusion for Multimodal 3D Object Detection [6.350460753267439]
MambaFusionは、効率的で適応的で物理的に基礎付けられた3D知覚を実現する、統合されたマルチモーダル検出フレームワークである。構造条件拡散ヘッドは、不確実性を考慮した推論と不確実性を考慮した推論を統合し、物理的妥当性を強制し、信頼性を校正する。このフレームワークは、SSMベースの効率と信頼性駆動核融合を結合することで、現実の自律運転システムに対して堅牢で、時間的に安定し、解釈可能な3D知覚が得られることを示す。
論文参考訳（メタデータ） (2026-02-08T21:10:46Z)
Multi-Resolution Alignment for Voxel Sparsity in Camera-Based 3D Semantic Scene Completion [52.959716866316604]
カメラベースの3Dセマンティックシーン補完(SSC)は、周囲の3Dシーンにおける各ボクセルの幾何学的占有度と意味ラベルを画像入力で評価するためのコスト効率の良いソリューションを提供する。既存の手法は、自律運転シナリオにおけるボクセルの大部分が空であるので、ボクセルの空間性という課題に直面している。カメラを用いた3Dセマンティックシーン補完におけるボクセル空間の分散を緩和するために,textitMulti-Resolution Alignment (MRA) アプローチを提案する。
論文参考訳（メタデータ） (2026-02-03T10:46:51Z)
RSGround-R1: Rethinking Remote Sensing Visual Grounding through Spatial Reasoning [61.84363374647606]
リモートセンシングビジュアルグラウンドディング(RSVG)は、自然言語記述に基づく大規模空中画像における対象物体のローカライズを目的としている。これらの記述はしばしば位置的手がかりに大きく依存しており、空間的推論においてMLLM(Multimodal Large Language Models)に固有の課題を提起している。空間理解の高度化を図るために,textbfRSGround-R1 と呼ばれる推論誘導型位置認識後学習フレームワークを提案する。
論文参考訳（メタデータ） (2026-01-29T12:35:57Z)
Spatial-aware Vision Language Model for Autonomous Driving [16.149511148218497]
VLM(Vision-Language Models)は、言語モデルに埋め込まれた共通感覚を活用することで、エンドツーエンドの自動運転に重要な可能性を示している。現在の画像ベース手法は、正確な空間的推論と幾何学的推論に苦しむため、信頼性の低い運転ポリシーが導かれる。 LVLDriveは、自律運転のための堅牢な3次元空間理解により既存のVLMをアップグレードするように設計された新しいフレームワークである。
論文参考訳（メタデータ） (2025-12-30T16:35:00Z)
Lemon: A Unified and Scalable 3D Multimodal Model for Universal Spatial Understanding [80.66591664266744]
Lemonは3Dポイントクラウドパッチと言語トークンを単一のシーケンスとして処理する統合トランスフォーマーアーキテクチャである。 3次元データの複雑さに対処するため,空間的コンテキストを保存するための構造化パッチやトークン化方式を開発した。 Lemonは、総合的な3D理解と推論タスクにまたがって、最先端のパフォーマンスを確立する。
論文参考訳（メタデータ） (2025-12-14T20:02:43Z)
Scaling Up Occupancy-centric Driving Scene Generation: Dataset and Method [54.461213497603154]
作業中心の手法は、最近、フレームとモダリティをまたいだ一貫した条件付けを提供することで、最先端の結果を得た。 Nuplan-Occは、広く使われているNuplanベンチマークから構築された、これまでで最大の占有率データセットである。高品質な占有、多視点ビデオ、LiDAR点雲を共同で合成する統合フレームワークを開発した。
論文参考訳（メタデータ） (2025-10-27T03:52:45Z)
Cross-Modal Geometric Hierarchy Fusion: An Implicit-Submap Driven Framework for Resilient 3D Place Recognition [9.411542547451193]
本稿では,密度に依存しない幾何学的推論により3次元位置認識を再定義するフレームワークを提案する。具体的には、元のシーンポイント雲密度の干渉に免疫する弾性点に基づく暗黙の3次元表現を導入する。これら2種類の情報を活用することで,鳥眼視と3Dセグメントの両視点から幾何学的情報を融合する記述子を得る。
論文参考訳（メタデータ） (2025-06-17T07:04:07Z)
LargeAD: Large-Scale Cross-Sensor Data Pretraining for Autonomous Driving [88.85002707211777]
LargeADは多用途でスケーラブルなフレームワークで、さまざまな現実世界の運転データセットにわたる大規模3D事前トレーニング用に設計されている。我々のフレームワークはVFMを利用して2次元画像から意味的にリッチなスーパーピクセルを抽出する。このアライメントは、クロスモーダルな表現学習を促進し、2Dデータと3Dデータのセマンティック一貫性を高める。
論文参考訳（メタデータ） (2025-01-07T18:59:59Z)
ALOcc: Adaptive Lifting-Based 3D Semantic Occupancy and Cost Volume-Based Flow Predictions [91.55655961014027]
シーン理解には3次元セマンティック占有とフロー予測が不可欠である。本稿では,3つの改善点を目標とした視覚ベースのフレームワークを提案する。我々の純粋な畳み込みアーキテクチャは、セマンティック占有率とジョイントセマンティックフロー予測の両方のために、複数のベンチマーク上で新しいSOTA性能を確立する。
論文参考訳（メタデータ） (2024-11-12T11:32:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。