論文の概要: Semantics-Guided Multimodal Masked Autoencoder Pretraining for 3D BEV Object Detection
- arxiv url: http://arxiv.org/abs/2605.25262v1
- Date: Sun, 24 May 2026 21:24:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.050278
- Title: Semantics-Guided Multimodal Masked Autoencoder Pretraining for 3D BEV Object Detection
- Title(参考訳): 3次元BEV物体検出のための意味誘導型マルチモーダルマスクオートエンコーダ
- Authors: Prabuddhi Wariyapperuma, Rajitha de Silva, Marc Hanheide, Thomas Bohné, Leonardo Guevara,
- Abstract要約: マルチモーダルマスク付きオートエンコーダは、下流3次元BEVオブジェクト検出のためのそのような表現を学習する強力な可能性を示している。
本稿では,事前学習時に意味情報を導入するセマンティックス誘導型マルチモーダルマスマスキング自動エンコーダフレームワークを提案する。
BEVFusion 3Dオブジェクト検出では、セマンティクスによる事前学習戦略により、nuScenesのミニ検証セットの性能が向上する。
- 参考スコア(独自算出の注目度): 2.3402617555964382
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate 3D bird's-eye view (BEV) object detection is essential for autonomous driving, and depends strongly on effective multimodal representations from complementary sensors such as cameras and LiDAR. Multimodal masked autoencoders have shown strong potential for learning such representations for downstream 3D BEV object detection. However, existing methods typically apply uniform random masking to camera and LiDAR inputs, treating all regions equally, and learn representations only through masked reconstruction. We propose a semantics-guided multimodal masked autoencoder framework that introduces semantic information during pretraining through two separate components: (i) semantics-guided LiDAR voxel masking, which preserves semantically important LiDAR regions more strongly, and (ii) an auxiliary point-wise LiDAR semantic decoder branch that injects semantic guidance in addition to reconstruction. On BEVFusion 3D object detection, our semantics-guided pretraining strategy improves performance on the nuScenes mini validation set compared to the standard UniM2AE baseline: semantics-guided LiDAR voxel masking yields +1.49% mean Average Precision (mAP) and +1.66% nuScenes Detection Score (NDS), while decoder-side point semantic supervision yields +1.39% mAP and +3.22% NDS over the baseline.
- Abstract(参考訳): 正確な3D鳥眼ビュー(BEV)オブジェクト検出は自律運転に不可欠であり、カメラやLiDARなどの補完センサーからの効果的なマルチモーダル表現に強く依存する。
マルチモーダルマスク付きオートエンコーダは、下流3次元BEVオブジェクト検出のためのそのような表現を学習する強力な可能性を示している。
しかし、既存の手法では、カメラとLiDARの入力に一様ランダムマスキングを適用し、全ての領域を等しく扱う。
我々は2つの異なるコンポーネントを通して事前学習中に意味情報を導入するセマンティックス誘導型マルチモーダルマスク自動エンコーダフレームワークを提案する。
i)意味的に重要なLiDAR領域をより強く保存する意味誘導型LiDARボクセルマスキング
(ii)再構築に加えて意味指導を注入する補助的ポイントワイドLiDARセマンティックデコーダブランチ。
BEVFusion 3Dオブジェクト検出では、私たちのセマンティクス誘導事前学習戦略は、標準的なUniM2AEベースラインと比較して、nuScenes miniバリデーションセットの性能を向上させる。
関連論文リスト
- On the Feasibility and Opportunity of Autoregressive 3D Object Detection [60.86546723351944]
AutoReg3Dは、検出をシーケンス生成としてキャストする自動回帰型3D検出器である。
さまざまなポイントクラウドやバックボーンに互換性があり、アンカーやNMSなしで、競合するnuScenesのパフォーマンスを実現する。
論文 参考訳(メタデータ) (2026-03-09T05:46:53Z) - Triple Point Masking [49.39218611030084]
既存の3Dマスク学習手法は、限られたデータの下でパフォーマンスボトルネックに遭遇する。
我々は、マスク付きオートエンコーダの事前学習のためのスケーラブルなフレームワークとして、TPMと呼ばれるトリプルポイントマスキング方式を導入する。
大規模な実験により,提案したTPMを組み込んだ4つのベースラインが,下流タスクの総合的な性能向上を実現することが示された。
論文 参考訳(メタデータ) (2024-09-26T05:33:30Z) - VFMM3D: Releasing the Potential of Image by Vision Foundation Model for Monocular 3D Object Detection [80.62052650370416]
モノクル3Dオブジェクト検出は、自律運転やロボティクスなど、さまざまなアプリケーションにおいて重要な役割を担っている。
本稿では,VFMM3Dを提案する。VFMM3Dは,ビジョンファウンデーションモデル(VFM)の機能を利用して,単一ビュー画像を正確にLiDARポイントクラウド表現に変換する,革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-04-15T03:12:12Z) - ODM3D: Alleviating Foreground Sparsity for Semi-Supervised Monocular 3D
Object Detection [15.204935788297226]
ODM3Dフレームワークは、トレーニング中にLiDARドメインの知識を単分子検出器に注入するために、様々なレベルでのクロスモーダルな知識蒸留を必要とする。
既存手法の準最適トレーニングの主要因として,前景の空間空間を同定することにより,LiDAR点に埋め込まれた正確な位置化情報を活用する。
KITTI検証とテストベンチマークの両方で1位にランクインし、教師付きまたは半教師付きである既存のモノクラー手法をはるかに上回っている。
論文 参考訳(メタデータ) (2023-10-28T07:12:09Z) - MAELi: Masked Autoencoder for Large-Scale LiDAR Point Clouds [13.426810473131642]
Masked AutoEncoder for LiDAR Point clouds (MAELi) は、復元中にエンコーダとデコーダの両方でLiDARポイントクラウドの空間性を直感的に活用する。
新たな再構築アプローチでは、MAELiは空空間と隠された空間を区別する。
これにより、MAELiは基礎となる3次元シーンの幾何学と意味論の理解を得る。
論文 参考訳(メタデータ) (2022-12-14T13:10:27Z) - BEV-MAE: Bird's Eye View Masked Autoencoders for Point Cloud
Pre-training in Autonomous Driving Scenarios [51.285561119993105]
自律運転におけるLiDARに基づく3Dオブジェクト検出のための,効率的なマスク付きオートエンコーダ事前学習フレームワークであるBEV-MAEを提案する。
具体的には、3Dエンコーダ学習特徴表現を導くために,鳥の目視(BEV)誘導マスキング戦略を提案する。
学習可能なポイントトークンを導入し、3Dエンコーダの一貫性のある受容的フィールドサイズを維持する。
論文 参考訳(メタデータ) (2022-12-12T08:15:03Z) - Boosting 3D Object Detection by Simulating Multimodality on Point Clouds [51.87740119160152]
本稿では,LiDAR 画像検出器に追従する特徴や応答をシミュレートすることで,単一モダリティ (LiDAR) 3次元物体検出器を高速化する新しい手法を提案する。
このアプローチでは、単一モダリティ検出器をトレーニングする場合のみ、LiDARイメージデータを必要とし、十分にトレーニングされた場合には、推論時にのみLiDARデータが必要である。
nuScenesデータセットの実験結果から,本手法はSOTA LiDARのみの3D検出器よりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-06-30T01:44:30Z) - The Devil is in the Task: Exploiting Reciprocal Appearance-Localization
Features for Monocular 3D Object Detection [62.1185839286255]
低コストのモノクル3D物体検出は、自律運転において基本的な役割を果たす。
DFR-Netという動的特徴反射ネットワークを導入する。
我々は、KITTIテストセットの全ての単分子3D物体検出器の中で、第1位にランク付けする。
論文 参考訳(メタデータ) (2021-12-28T07:31:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。