論文の概要: MetaOcc: Spatio-Temporal Fusion of Surround-View 4D Radar and Camera for 3D Occupancy Prediction with Dual Training Strategies
- arxiv url: http://arxiv.org/abs/2501.15384v3
- Date: Fri, 08 Aug 2025 02:34:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 12:11:10.838815
- Title: MetaOcc: Spatio-Temporal Fusion of Surround-View 4D Radar and Camera for 3D Occupancy Prediction with Dual Training Strategies
- Title(参考訳): MetaOcc: デュアルトレーニング戦略による3次元作業予測のための周囲4次元レーダとカメラの時空間融合
- Authors: Long Yang, Lianqing Zheng, Wenjin Ai, Minghao Liu, Sen Li, Qunshu Lin, Shengyu Yan, Jie Bai, Zhixiong Ma, Tao Huang, Xichan Zhu,
- Abstract要約: 本稿では,Omni指向の3次元占有予測のための新しいマルチモーダルフレームワークであるMetaOccを紹介する。
レーダーデータにエンコーダを直接適用することの限界に対処するため,レーダハイト自己保持モジュールを提案する。
高価な点クラウドへの依存を軽減するため,オープンセットセグメンタに基づく擬似ラベル生成パイプラインを提案する。
- 参考スコア(独自算出の注目度): 12.485905108032146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robust 3D occupancy prediction is essential for autonomous driving, particularly under adverse weather conditions where traditional vision-only systems struggle. While the fusion of surround-view 4D radar and cameras offers a promising low-cost solution, effectively extracting and integrating features from these heterogeneous sensors remains challenging. This paper introduces MetaOcc, a novel multi-modal framework for omnidirectional 3D occupancy prediction that leverages both multi-view 4D radar and images. To address the limitations of directly applying LiDAR-oriented encoders to sparse radar data, we propose a Radar Height Self-Attention module that enhances vertical spatial reasoning and feature extraction. Additionally, a Hierarchical Multi-scale Multi-modal Fusion strategy is developed to perform adaptive local-global fusion across modalities and time, mitigating spatio-temporal misalignments and enriching fused feature representations. To reduce reliance on expensive point cloud annotations, we further propose a pseudo-label generation pipeline based on an open-set segmentor. This enables a semi-supervised strategy that achieves 90% of the fully supervised performance using only 50% of the ground truth labels, offering an effective trade-off between annotation cost and accuracy. Extensive experiments demonstrate that MetaOcc under full supervision achieves state-of-the-art performance, outperforming previous methods by +0.47 SC IoU and +4.02 mIoU on the OmniHD-Scenes dataset, and by +1.16 SC IoU and +1.24 mIoU on the SurroundOcc-nuScenes dataset. These results demonstrate the scalability and robustness of MetaOcc across sensor domains and training conditions, paving the way for practical deployment in real-world autonomous systems. Code and data are available at https://github.com/LucasYang567/MetaOcc.
- Abstract(参考訳): ロバストな3D占有予測は、特に従来の視覚のみのシステムが苦しむ悪天候下では、自動運転に不可欠である。
サラウンドビュー4Dレーダーとカメラの融合は、有望な低コストソリューションを提供するが、これらの異種センサーから機能を効果的に抽出し統合することは、依然として困難である。
本稿では,多視点4Dレーダと画像の両方を活用する全方位3次元占有予測のための新しいマルチモーダルフレームワークであるMetaOccを紹介する。
レーダーデータにLiDAR指向エンコーダを直接適用することの限界に対処するため,垂直空間推論と特徴抽出を強化したレーダー高自己認識モジュールを提案する。
さらに,階層型マルチスケール・マルチモーダル・フュージョン(Multi-scale Multi-modal Fusion)戦略を開発し,モーダル性や時間にまたがる局所的局所的融合,時空間的不整合の緩和,融合した特徴表現の強化を実現した。
高価なポイントクラウドアノテーションへの依存を軽減するため,オープンセットセグメンタに基づく擬似ラベル生成パイプラインを提案する。
これにより、基礎となる真理ラベルの50%しか使用せずに、完全に教師されたパフォーマンスの90%を達成し、アノテーションコストと精度の効果的なトレードオフを提供する半教師付き戦略が可能になる。
徹底的な実験により、MetaOccは最先端のパフォーマンスを達成し、OmniHD-Scenesデータセットでは+0.47 SC IoUと+4.02 mIoU、SurroundOcc-nuScenesデータセットでは+1.16 SC IoUと+1.24 mIoUよりも優れていた。
これらの結果は、センサードメインとトレーニング条件をまたいだMetaOccのスケーラビリティと堅牢性を示し、現実の自律システムへの実践的な展開の道を開いた。
コードとデータはhttps://github.com/LucasYang567/MetaOcc.comで公開されている。
関連論文リスト
- NOVA: Navigation via Object-Centric Visual Autonomy for High-Speed Target Tracking in Unstructured GPS-Denied Environments [56.35569661650558]
我々はNOVAというオブジェクト中心のフレームワークを導入し、ロバストな目標追跡と衝突認識ナビゲーションを可能にした。
グローバルマップを構築するのではなく、NOVAはターゲットの参照フレーム内での知覚、推定、制御を定式化する。
我々は,都市迷路や森林の小道,間欠的なGPS損失を伴う建物内の繰り返し遷移など,現実の挑戦的なシナリオにまたがってNOVAを検証する。
論文 参考訳(メタデータ) (2025-06-23T14:28:30Z) - Lightweight RGB-D Salient Object Detection from a Speed-Accuracy Tradeoff Perspective [54.91271106816616]
現在のRGB-D法は通常、大規模なバックボーンを利用して精度を向上させるが効率を犠牲にする。
本稿では,軽量RGB-D SODのためのSATNet(Speed-Accuracy Tradeoff Network)を提案する。
深度について,高品質の深度マップを生成するための深度任意のモデルを導入する。
モダリティ融合において,モダリティ間の整合性を検討するために,DAM(Decoupled Attention Module)を提案する。
特徴表現のために,双方向の反転フレームワークを用いたDIRM (Dual Information Representation Module) を開発した。
論文 参考訳(メタデータ) (2025-05-07T19:37:20Z) - ZFusion: An Effective Fuser of Camera and 4D Radar for 3D Object Perception in Autonomous Driving [7.037019489455008]
本研究では、4次元レーダと視覚のモダリティを融合した3次元物体検出手法ZFusionを提案する。
FP-DDCAフェイザーはTransformerブロックをパックし、異なるスケールのマルチモーダル機能をインタラクティブに融合する。
実験の結果、ZFusionは興味のある領域で最先端のmAPを達成した。
論文 参考訳(メタデータ) (2025-04-04T13:29:32Z) - MinkOcc: Towards real-time label-efficient semantic occupancy prediction [8.239334282982623]
MinkOccはカメラとLiDARのためのマルチモーダルな3Dセマンティック占有予測フレームワークである。
競争精度を維持しつつ、手動ラベリングへの依存を90%削減する。
我々は、MinkOccをキュレートされたデータセットを超えて拡張することを目指しており、自動運転における3Dセマンティック占有率予測のより広範な現実的な展開を可能にしている。
論文 参考訳(メタデータ) (2025-04-03T04:31:56Z) - SuperFlow++: Enhanced Spatiotemporal Consistency for Cross-Modal Data Pretraining [62.433137130087445]
SuperFlow++は、連続するカメラペアを使用して事前トレーニングと下流タスクを統合する新しいフレームワークである。
SuperFlow++は様々なタスクや運転条件で最先端のメソッドよりも優れています。
強力な一般化性と計算効率により、SuperFlow++は、自動運転におけるデータ効率の高いLiDARベースの認識のための新しいベンチマークを確立する。
論文 参考訳(メタデータ) (2025-03-25T17:59:57Z) - L2RDaS: Synthesizing 4D Radar Tensors for Model Generalization via Dataset Expansion [6.605694475813286]
本稿では,LiDARデータから空間情報を伝達する4次元レーダテンソルを自動走行データセットから合成するフレームワークであるLiDAR-to-4Dレーダデータ合成(L2RDaS)を提案する。
L2RDaSは改良されたU-Netアーキテクチャを統合し、空間情報を効果的にキャプチャし、オブジェクト情報サプリメント(OBIS)モジュールを使用して反射率を高める。
L2RDaSは合成レーダテンソルを用いて実データセットを拡張してモデル一般化を改善し、平均4.25%のAP_BEV$と2.87%のAP_3Dを達成する
論文 参考訳(メタデータ) (2025-03-05T16:16:46Z) - RobuRCDet: Enhancing Robustness of Radar-Camera Fusion in Bird's Eye View for 3D Object Detection [68.99784784185019]
暗い照明や悪天候はカメラの性能を低下させる。
レーダーは騒音と位置のあいまいさに悩まされる。
本稿では,BEVの頑健な物体検出モデルであるRobuRCDetを提案する。
論文 参考訳(メタデータ) (2025-02-18T17:17:38Z) - Bayesian Approximation-Based Trajectory Prediction and Tracking with 4D Radar [13.438311878715536]
3Dマルチオブジェクトトラッキング(MOT)は自動運転車には不可欠だが、LiDARとカメラベースの手法は悪天候下では劣化する。
本研究では,4次元レーダベースMOTフレームワークであるBayes-4DRTrackを提案する。
論文 参考訳(メタデータ) (2025-02-03T13:49:21Z) - Doracamom: Joint 3D Detection and Occupancy Prediction with Multi-view 4D Radars and Cameras for Omnidirectional Perception [9.76463525667238]
マルチビューカメラと4Dレーダを融合した最初のフレームワークであるDoracamomを提案する。
コードとモデルは公開されます。
論文 参考訳(メタデータ) (2025-01-26T04:24:07Z) - MR-Occ: Efficient Camera-LiDAR 3D Semantic Occupancy Prediction Using Hierarchical Multi-Resolution Voxel Representation [8.113965240054506]
MR-Occは,カメラ-LiDAR融合による3Dセマンティック占有率予測の新しい手法である。
HVFRは重要なボクセルの機能を強化し、計算コストを削減することで性能を向上させる。
MODは、センサービューから隠された領域をよりよく扱い、精度を向上させるために、Occluded'クラスを導入している。
PVF-Netは、デフォルマブルアテンション機構を通じてカメラとLiDARデータを効果的に融合するために、密度の高いLiDAR機能を利用する。
論文 参考訳(メタデータ) (2024-12-29T14:39:21Z) - ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - ET-Former: Efficient Triplane Deformable Attention for 3D Semantic Scene Completion From Monocular Camera [53.20087549782785]
本稿では,単一単眼カメラを用いたセマンティックシーン補完のための新しいエンドツーエンドアルゴリズムET-Formerを紹介する。
本手法は,単一のRGB観測からセマンティック占有マップを生成すると同時に,セマンティック予測のための不確実性推定を行う。
論文 参考訳(メタデータ) (2024-10-14T19:14:49Z) - RadarOcc: Robust 3D Occupancy Prediction with 4D Imaging Radar [15.776076554141687]
3D占有に基づく知覚パイプラインは、かなり進歩した自律運転を持つ。
現在の方法では、LiDARやカメラの入力を3D占有率予測に頼っている。
本稿では,4次元イメージングレーダセンサを用いた3次元占有予測手法を提案する。
論文 参考訳(メタデータ) (2024-05-22T21:48:17Z) - OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments [77.0399450848749]
本稿では,OccNeRF法を用いて,3次元監視なしで占有ネットワークを訓練する手法を提案する。
我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。
意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
論文 参考訳(メタデータ) (2023-12-14T18:58:52Z) - 4DRVO-Net: Deep 4D Radar-Visual Odometry Using Multi-Modal and
Multi-Scale Adaptive Fusion [2.911052912709637]
4次元(4D)レーダー-視覚計測(4DRVO)は4次元レーダーとカメラの補完情報を統合している。
4DRVOは4Dレーダーポイント雲の空隙による追跡誤差が顕著である可能性がある。
本稿では,4次元レーダ・ビジュアル・オドメトリーの手法である4DRVO-Netを提案する。
論文 参考訳(メタデータ) (2023-08-12T14:00:09Z) - DETR4D: Direct Multi-View 3D Object Detection with Sparse Attention [50.11672196146829]
サラウンドビュー画像を用いた3次元物体検出は、自動運転にとって必須の課題である。
マルチビュー画像における3次元オブジェクト検出のためのスパースアテンションと直接特徴クエリを探索するトランスフォーマーベースのフレームワークであるDETR4Dを提案する。
論文 参考訳(メタデータ) (2022-12-15T14:18:47Z) - HUM3DIL: Semi-supervised Multi-modal 3D Human Pose Estimation for
Autonomous Driving [95.42203932627102]
3Dの人間のポーズ推定は、自動運転車が歩行者の微妙で複雑な振る舞いを知覚し理解できるようにする新しい技術である。
提案手法は,これらの補完信号を半教師付き方式で効率的に利用し,既存の手法よりも大きなマージンで性能を向上する。
具体的には、LiDAR点を画素整列マルチモーダル特徴に埋め込み、トランスフォーマーの精細化段階を経る。
論文 参考訳(メタデータ) (2022-12-15T11:15:14Z) - Benchmarking the Robustness of LiDAR-Camera Fusion for 3D Object
Detection [58.81316192862618]
自律運転における3D知覚のための2つの重要なセンサーは、カメラとLiDARである。
これら2つのモダリティを融合させることで、3次元知覚モデルの性能を大幅に向上させることができる。
我々は、最先端の核融合法を初めてベンチマークした。
論文 参考訳(メタデータ) (2022-05-30T09:35:37Z) - EPNet++: Cascade Bi-directional Fusion for Multi-Modal 3D Object
Detection [56.03081616213012]
本稿では,新しいCasscade Bi-directional Fusion(CB-Fusion)モジュールを導入することで,マルチモーダル3Dオブジェクト検出のためのEPNet++を提案する。
提案したCB-Fusionモジュールは、カスケード双方向相互作用融合方式で画像特徴と点特徴の豊富な意味情報を高める。
KITTI、JRDB、SUN-RGBDデータセットの実験結果は、最先端の手法よりもEPNet++の方が優れていることを示している。
論文 参考訳(メタデータ) (2021-12-21T10:48:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。