論文の概要: UP-Fuse: Uncertainty-guided LiDAR-Camera Fusion for 3D Panoptic Segmentation
- arxiv url: http://arxiv.org/abs/2602.19349v1
- Date: Sun, 22 Feb 2026 21:34:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.600817
- Title: UP-Fuse: Uncertainty-guided LiDAR-Camera Fusion for 3D Panoptic Segmentation
- Title(参考訳): UP-Fuse:不確実誘導LiDAR-Camera Fusion for 3D Panoptic Segmentation
- Authors: Rohit Mohan, Florian Drews, Yakov Miron, Daniele Cattaneo, Abhinav Valada,
- Abstract要約: 本稿では,新しい不確実性を考慮した融合フレームワークUP-Fuseを紹介する。
生のLiDARデータはまずレンジビューに投影され、LiDARエンコーダによってエンコードされる。
カメラ機能は同時に抽出され、同じ共有空間に投影される。
- 参考スコア(独自算出の注目度): 17.310791153991975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LiDAR-camera fusion enhances 3D panoptic segmentation by leveraging camera images to complement sparse LiDAR scans, but it also introduces a critical failure mode. Under adverse conditions, degradation or failure of the camera sensor can significantly compromise the reliability of the perception system. To address this problem, we introduce UP-Fuse, a novel uncertainty-aware fusion framework in the 2D range-view that remains robust under camera sensor degradation, calibration drift, and sensor failure. Raw LiDAR data is first projected into the range-view and encoded by a LiDAR encoder, while camera features are simultaneously extracted and projected into the same shared space. At its core, UP-Fuse employs an uncertainty-guided fusion module that dynamically modulates cross-modal interaction using predicted uncertainty maps. These maps are learned by quantifying representational divergence under diverse visual degradations, ensuring that only reliable visual cues influence the fused representation. The fused range-view features are decoded by a novel hybrid 2D-3D transformer that mitigates spatial ambiguities inherent to the 2D projection and directly predicts 3D panoptic segmentation masks. Extensive experiments on Panoptic nuScenes, SemanticKITTI, and our introduced Panoptic Waymo benchmark demonstrate the efficacy and robustness of UP-Fuse, which maintains strong performance even under severe visual corruption or misalignment, making it well suited for robotic perception in safety-critical settings.
- Abstract(参考訳): LiDAR-カメラ融合は、カメラ画像を利用してスパースLiDARスキャンを補完することにより、3Dパノプティクスのセグメンテーションを強化するが、重要な故障モードも導入する。
悪条件下では、カメラセンサの劣化や故障が認識システムの信頼性を著しく損なう可能性がある。
この問題に対処するために,カメラセンサの劣化,キャリブレーションドリフト,センサの故障に対して頑健な2Dレンジビューにおいて,新しい不確実性を考慮した融合フレームワークであるUP-Fuseを導入する。
生のLiDARデータをまずレンジビューに投影し、LiDARエンコーダでエンコードし、同時にカメラ特徴を抽出し、同じ共有空間に投影する。
コアとなるUP-Fuseは、予測された不確実性マップを使用して相互モーダル相互作用を動的に変調する不確実性誘導核融合モジュールを使用している。
これらの地図は、様々な視覚的劣化の下で表現のばらつきを定量化し、信頼できる視覚的手がかりだけが融合表現に影響を与えることを保証することによって学習される。
融合したレンジビュー特徴は、2Dプロジェクションに固有の空間的曖昧さを緩和し、3Dパノプタセグメンテーションマスクを直接予測する新しいハイブリッド2D-3Dトランスフォーマーによってデコードされる。
Panoptic nuScenes, SemanticKITTI, そして本誌が紹介したPanoptic Waymoベンチマークの大規模な実験は、過酷な視覚的腐敗や不適応の下でも強力なパフォーマンスを維持するUP-Fuseの有効性と堅牢性を示している。
関連論文リスト
- Semantic Causality-Aware Vision-Based 3D Occupancy Prediction [63.752869043357585]
視覚に基づく3Dセマンティック占有予測は、3Dビジョンにおいて重要な課題である。
しかし、既存のメソッドは、しばしばモジュラーパイプラインに依存している。
本稿では,モジュール型2D-to-3Dトランスフォーメーションパイプラインの全体的,エンドツーエンドの監視を可能にする新たな因果損失を提案する。
論文 参考訳(メタデータ) (2025-09-10T08:29:22Z) - Adaptive Dual Uncertainty Optimization: Boosting Monocular 3D Object Detection under Test-Time Shifts [80.32933059529135]
TTA(Test-Time Adaptation)メソッドが出現し、推論中にターゲット分布に適応する。
我々は、堅牢なM3ODの両不確実性を共同で最小化するために設計された、最初のTTAフレームワークであるDual Uncertainity Optimization (DUO)を提案する。
並列に,明瞭な意味的手がかりを持つ領域における幾何学的コヒーレンスを保存する意味認識型正規場制約を設計する。
論文 参考訳(メタデータ) (2025-08-28T07:09:21Z) - Look Before You Fuse: 2D-Guided Cross-Modal Alignment for Robust 3D Detection [7.448164560761331]
既存の手法は、LiDARとカメラの特徴の空間的ずれに悩まされている。
このミスアライメントの根本原因は、キャリブレーションの不正確さとローリングシャッター効果から生じるプロジェクションエラーにある。
本稿では,PGDCからの残留雑音を抑えるために不連続認識幾何融合を導入し,背景境界における鋭い深度遷移を明示的に促進する。
提案手法は,mAPとNDSをそれぞれ71.5%,73.6%としたnuScenes検証データセット上でのSOTA性能を実現する。
論文 参考訳(メタデータ) (2025-07-21T18:12:22Z) - SemanticBEVFusion: Rethink LiDAR-Camera Fusion in Unified Bird's-Eye
View Representation for 3D Object Detection [14.706717531900708]
LiDARとカメラは、自律運転における3Dオブジェクト検出に不可欠な2つのセンサーである。
近年の手法では,LiDAR点雲にカメラ機能を持たせた点レベルの融合に焦点が当てられている。
We present SemanticBEVFusion to deep fuse camera features with LiDAR features in an unified BEV representation。
論文 参考訳(メタデータ) (2022-12-09T05:48:58Z) - From One to Many: Dynamic Cross Attention Networks for LiDAR and Camera
Fusion [12.792769704561024]
既存の融合法では、キャリブレーションに基づいて、各3Dポイントを1つの投影された画像ピクセルに調整する傾向がある。
本稿では,動的クロスアテンション(DCA)モジュールを提案する。
Dynamic Cross Attention Network (DCAN) という名称の核融合アーキテクチャは、マルチレベルイメージ機能を活用し、ポイントクラウドの複数の表現に適応する。
論文 参考訳(メタデータ) (2022-09-25T16:10:14Z) - MSMDFusion: Fusing LiDAR and Camera at Multiple Scales with Multi-Depth
Seeds for 3D Object Detection [89.26380781863665]
自律運転システムにおける高精度で信頼性の高い3次元物体検出を実現するためには,LiDARとカメラ情報の融合が不可欠である。
近年のアプローチでは、2次元カメラ画像の3次元空間への昇華点によるカメラ特徴のセマンティックな密度の探索が試みられている。
マルチグラニュラリティLiDARとカメラ機能とのマルチスケールなプログレッシブインタラクションに焦点を当てた,新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-07T12:29:29Z) - TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with
Transformers [49.689566246504356]
そこで本研究では,LiDAR-カメラ融合に対するソフトアソシエーション機構による堅牢な解であるTransFusionを提案する。
TransFusionは大規模データセット上で最先端のパフォーマンスを実現する。
提案手法を3次元トラッキングタスクに拡張し,nuScenesトラッキングのリーダーボードにおける第1位を達成する。
論文 参考訳(メタデータ) (2022-03-22T07:15:13Z) - EPNet++: Cascade Bi-directional Fusion for Multi-Modal 3D Object
Detection [56.03081616213012]
本稿では,新しいCasscade Bi-directional Fusion(CB-Fusion)モジュールを導入することで,マルチモーダル3Dオブジェクト検出のためのEPNet++を提案する。
提案したCB-Fusionモジュールは、カスケード双方向相互作用融合方式で画像特徴と点特徴の豊富な意味情報を高める。
KITTI、JRDB、SUN-RGBDデータセットの実験結果は、最先端の手法よりもEPNet++の方が優れていることを示している。
論文 参考訳(メタデータ) (2021-12-21T10:48:34Z) - LIF-Seg: LiDAR and Camera Image Fusion for 3D LiDAR Semantic
Segmentation [78.74202673902303]
本稿では,LiDAR分割のための粗大なLiDARとカメラフュージョンベースネットワーク(LIF-Seg)を提案する。
提案手法は,画像の文脈情報を完全に活用し,単純だが効果的な早期融合戦略を導入する。
これら2つのコンポーネントの協力により、効果的なカメラ-LiDAR融合が成功する。
論文 参考訳(メタデータ) (2021-08-17T08:53:11Z) - 3D-CVF: Generating Joint Camera and LiDAR Features Using Cross-View
Spatial Feature Fusion for 3D Object Detection [10.507404260449333]
本稿では,3次元物体検出のためのカメラとLiDARセンサの融合アーキテクチャを提案する。
提案した3D-CVFは,KITTIベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-04-27T08:34:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。