論文の概要: WeatherOcc3D: VLM-Assisted Adverse Weather Aware 3D Semantic Occupancy Prediction
- arxiv url: http://arxiv.org/abs/2605.16127v1
- Date: Fri, 15 May 2026 16:12:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.362285
- Title: WeatherOcc3D: VLM-Assisted Adverse Weather Aware 3D Semantic Occupancy Prediction
- Title(参考訳): WeatherOcc3D:VLMによる逆気象対応3Dセマンティック職業予測
- Authors: A. Enes Doruk, Abdelaziz Hussein, Hasan F. Ates,
- Abstract要約: 本稿では,VLMを用いた言語環境情報によるマルチセンサ統合を支援するフレームワークを提案する。
我々はパラメータ効率のよいアダプタを用いて、気象特化テキストの埋め込みとセンサーの特徴を調整し、ゲーティング戦略と組み合わせた。
このモデルでは、晴天時にセマンティックカメラの特徴を優先し、雨の夜に幾何学的LiDARにシフトする、融合比を動的に調整することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: While multi-modal 3D semantic occupancy prediction typically enhances robustness by fusing camera and LiDAR inputs, its effectiveness is fundamentally constrained by environmental variability. Specifically, camera sensors suffer from severe low-light degradation, while LiDAR sensors encounter significant backscatter noise during heavy precipitation. These adverse conditions create a modality trust problem, as static fusion strategies fail to adaptively re-weight inputs when a specific sensor becomes unreliable. To address this, we propose a VLM-assisted framework leveraging the pre-trained CLIP latent space to guide multi-sensor integration via linguistic environmental cues. We utilize a parameter-efficient adapter to align weather-specific text embeddings with sensor features, coupled with a gating strategy that decomposes environmental uncertainty into two factors: visibility and illumination. This enables the model to dynamically modulate the fusion ratio - prioritizing semantic camera features in clear daylight and shifting to geometric LiDAR priors during rainy nights. Evaluations on the nuScenes dataset demonstrate the versatility of our approach, as implementing our proposed framework on the OccMamba and M-CONet architectures achieves mIoU scores of 26.3 and 21.1, respectively, significantly outperforming their traditional baselines.
- Abstract(参考訳): マルチモーダルな3Dセマンティック占有予測は、カメラとLiDAR入力を融合させることにより、ロバスト性を高めるのが一般的であるが、その効果は、環境変動性によって根本的に制約される。
特に、カメラセンサーは深刻な低照度劣化に悩まされ、LiDARセンサーは降水量の多いときにかなりの後方散乱音に遭遇する。
これらの悪条件は、特定のセンサが信頼できなくなると、静的融合戦略が適応的に入力を再重み付けできないため、モダリティ信頼問題を引き起こす。
そこで本稿では,学習済みのCLIP潜伏空間を利用したVLM支援フレームワークを提案する。
我々は、パラメータ効率のよいアダプタを用いて、気象固有のテキスト埋め込みとセンサーの特徴を一致させるとともに、環境の不確実性を可視性と照明の2つの要因に分解するゲーティング戦略を併用する。
このモデルでは、晴天時にセマンティックカメラの特徴を優先し、雨の夜に幾何学的LiDARにシフトする、融合比を動的に調整することができる。
OccMamba と M-CONet アーキテクチャ上で提案したフレームワークを実装した nuScenes データセットの評価では,mIoU スコアが 26.3 と 21.1 である。
関連論文リスト
- VLMFusionOcc3D: VLM Assisted Multi-Modal 3D Semantic Occupancy Prediction [0.0]
VLMFusionOcc3Dは、自律運転における高密度な3Dセマンティック占有率予測のための堅牢なマルチモーダルフレームワークである。
我々は,車両メタデータと気象条件付きプロンプトを利用した動的ゲーティング機構であるWeather-Aware Adaptive Fusionを導入する。
我々のアプローチは、複雑な都市ナビゲーションのためのスケーラブルで堅牢なソリューションを提供するため、挑戦的な気象シナリオにおいて、大幅な改善を実現している。
論文 参考訳(メタデータ) (2026-03-03T05:22:28Z) - UP-Fuse: Uncertainty-guided LiDAR-Camera Fusion for 3D Panoptic Segmentation [17.310791153991975]
本稿では,新しい不確実性を考慮した融合フレームワークUP-Fuseを紹介する。
生のLiDARデータはまずレンジビューに投影され、LiDARエンコーダによってエンコードされる。
カメラ機能は同時に抽出され、同じ共有空間に投影される。
論文 参考訳(メタデータ) (2026-02-22T21:34:29Z) - SuperFlow++: Enhanced Spatiotemporal Consistency for Cross-Modal Data Pretraining [62.433137130087445]
SuperFlow++は、連続するカメラペアを使用して事前トレーニングと下流タスクを統合する新しいフレームワークである。
SuperFlow++は様々なタスクや運転条件で最先端のメソッドよりも優れています。
強力な一般化性と計算効率により、SuperFlow++は、自動運転におけるデータ効率の高いLiDARベースの認識のための新しいベンチマークを確立する。
論文 参考訳(メタデータ) (2025-03-25T17:59:57Z) - Multi-Modality Driven LoRA for Adverse Condition Depth Estimation [61.525312117638116]
逆条件深さ推定のためのMulti-Modality Driven LoRA(MMD-LoRA)を提案する。
Prompt Driven Domain Alignment (PDDA) と Visual-Text Consistent Contrastive Learning (VTCCL) の2つのコアコンポーネントで構成されている。
nuScenesとOxford RobotCarデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-12-28T14:23:58Z) - ALOcc: Adaptive Lifting-Based 3D Semantic Occupancy and Cost Volume-Based Flow Predictions [91.55655961014027]
シーン理解には3次元セマンティック占有とフロー予測が不可欠である。
本稿では,3つの改善点を目標とした視覚ベースのフレームワークを提案する。
我々の純粋な畳み込みアーキテクチャは、セマンティック占有率とジョイントセマンティックフロー予測の両方のために、複数のベンチマーク上で新しいSOTA性能を確立する。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - CAFuser: Condition-Aware Multimodal Fusion for Robust Semantic Perception of Driving Scenes [56.52618054240197]
本研究では,運転シーンのロバストな意味認識のための条件対応型マルチモーダル融合手法を提案する。
CAFuserは、RGBカメラ入力を用いて環境条件を分類し、コンディショントークンを生成する。
我々のモデルは、特に悪条件シナリオにおいて、ロバスト性と精度を著しく向上させる。
論文 参考訳(メタデータ) (2024-10-14T17:56:20Z) - Robust Multimodal 3D Object Detection via Modality-Agnostic Decoding and Proximity-based Modality Ensemble [15.173314907900842]
既存の3Dオブジェクト検出方法は、LiDARセンサーに大きく依存している。
我々は,LiDAR過信頼問題に対処するためにMEFormerを提案する。
我々のMEFormerは73.9% NDSと71.5% mAPの最先端性能を実現している。
論文 参考訳(メタデータ) (2024-07-27T03:21:44Z) - ContextualFusion: Context-Based Multi-Sensor Fusion for 3D Object Detection in Adverse Operating Conditions [1.7537812081430004]
本研究では,3次元物体検出モデルにカメラやライダーの知識を取り入れたContextualFusionという手法を提案する。
我々の手法は、文脈バランスの取れた合成データセットの最先端手法に対して6.2%のmAP改善をもたらす。
本手法は,実世界のNuScenesデータセット上での夜間の3D対物性能を11.7%向上させる。
論文 参考訳(メタデータ) (2024-04-23T06:37:54Z) - Multi-Modal Neural Radiance Field for Monocular Dense SLAM with a
Light-Weight ToF Sensor [58.305341034419136]
単眼カメラと軽量ToFセンサを備えた初の高密度SLAMシステムを提案する。
本稿では,RGBカメラと軽量ToFセンサの両方の信号のレンダリングをサポートするマルチモーダル暗黙のシーン表現を提案する。
実験により,本システムは軽量なToFセンサの信号をうまく利用し,競合的な結果が得られることが示された。
論文 参考訳(メタデータ) (2023-08-28T07:56:13Z) - LIF-Seg: LiDAR and Camera Image Fusion for 3D LiDAR Semantic
Segmentation [78.74202673902303]
本稿では,LiDAR分割のための粗大なLiDARとカメラフュージョンベースネットワーク(LIF-Seg)を提案する。
提案手法は,画像の文脈情報を完全に活用し,単純だが効果的な早期融合戦略を導入する。
これら2つのコンポーネントの協力により、効果的なカメラ-LiDAR融合が成功する。
論文 参考訳(メタデータ) (2021-08-17T08:53:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。