Fugu-MT 論文翻訳(概要): UniM$^2$AE: Multi-modal Masked Autoencoders with Unified 3D Representation for 3D Perception in Autonomous Driving

論文の概要: UniM$^2$AE: Multi-modal Masked Autoencoders with Unified 3D Representation for 3D Perception in Autonomous Driving

arxiv url: http://arxiv.org/abs/2308.10421v3
Date: Fri, 23 Aug 2024 04:51:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-26 20:18:44.309755
Title: UniM$^2$AE: Multi-modal Masked Autoencoders with Unified 3D Representation for 3D Perception in Autonomous Driving
Title（参考訳）: UniM$^2$AE: 自律運転における3次元認識のための統一3次元表現付きマルチモーダルマスク付きオートエンコーダ
Authors: Jian Zou, Tianyu Huang, Guanglei Yang, Zhenhua Guo, Tao Luo, Chun-Mei Feng, Wangmeng Zuo,
Abstract要約: Masked Autoencoders (MAE)は、強力な表現の学習において重要な役割を担い、様々な3D知覚タスクにおいて優れた結果をもたらす。この研究は、自律運転における統一された表現空間に適したマルチモーダルのMasked Autoencodersに展開する。画像に固有のセマンティクスとLiDAR点雲の幾何学的複雑さを複雑に結合するため,UniM$2$AEを提案する。
参考スコア（独自算出の注目度）: 47.590099762244535
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Masked Autoencoders (MAE) play a pivotal role in learning potent representations, delivering outstanding results across various 3D perception tasks essential for autonomous driving. In real-world driving scenarios, it's commonplace to deploy multiple sensors for comprehensive environment perception. Despite integrating multi-modal features from these sensors can produce rich and powerful features, there is a noticeable challenge in MAE methods addressing this integration due to the substantial disparity between the different modalities. This research delves into multi-modal Masked Autoencoders tailored for a unified representation space in autonomous driving, aiming to pioneer a more efficient fusion of two distinct modalities. To intricately marry the semantics inherent in images with the geometric intricacies of LiDAR point clouds, we propose UniM$^2$AE. This model stands as a potent yet straightforward, multi-modal self-supervised pre-training framework, mainly consisting of two designs. First, it projects the features from both modalities into a cohesive 3D volume space to intricately marry the bird's eye view (BEV) with the height dimension. The extension allows for a precise representation of objects and reduces information loss when aligning multi-modal features. Second, the Multi-modal 3D Interactive Module (MMIM) is invoked to facilitate the efficient inter-modal interaction during the interaction process. Extensive experiments conducted on the nuScenes Dataset attest to the efficacy of UniM$^2$AE, indicating enhancements in 3D object detection and BEV map segmentation by 1.2\% NDS and 6.5\% mIoU, respectively. The code is available at https://github.com/hollow-503/UniM2AE.
Abstract（参考訳）: Masked Autoencoders (MAE) は、強力な表現の学習において重要な役割を担い、自律運転に必要な様々な3D知覚タスクに優れた結果をもたらす。現実の運転シナリオでは、総合的な環境認識のために複数のセンサーをデプロイするのが一般的です。これらのセンサからマルチモーダル機能を統合することで、リッチで強力な機能を実現することができるが、異なるモダリティの相違により、この統合に対処するMAEメソッドには顕著な課題がある。この研究は、自律運転における統一された表現空間に適したマルチモーダル・マスケッド・オートエンコーダに発展し、2つの異なるモーダルのより効率的な融合を開拓することを目的としている。画像に固有の意味論とLiDAR点雲の幾何学的複雑さを複雑に結合するため,UniM$^2$AEを提案する。このモデルは主に2つの設計からなる、強力かつ単純でマルチモーダルな自己指導型事前学習フレームワークとして機能する。まず、両モードの特徴を密集した3Dボリューム空間に投影し、鳥の目視(BEV)と高さ次元を複雑に結合する。この拡張により、オブジェクトの正確な表現が可能になり、マルチモーダル機能の整列時の情報損失を低減することができる。第2に,Multi-modal 3D Interactive Module (MMIM) が起動され,対話プロセス中の効率的なモーダル間相互作用が促進される。 UniM$^2$AEの有効性を実証したnuScenesデータセットにおいて,3Dオブジェクト検出とBEVマップのセグメンテーションをそれぞれ1.2\% NDSと6.5\% mIoUで強化した。コードはhttps://github.com/hollow-503/UniM2AEで入手できる。

関連論文リスト

econSG: Efficient and Multi-view Consistent Open-Vocabulary 3D Semantic Gaussians [56.85804719947]
3DGSを用いたオープン語彙セマンティックセマンティックセグメンテーションのためのeconSGを提案する。筆者らのeconSGは,既存手法と比較して,4つのベンチマークデータセット上での最先端性能を示す。
論文参考訳（メタデータ） (2025-04-08T13:12:31Z)
FGU3R: Fine-Grained Fusion via Unified 3D Representation for Multimodal 3D Object Detection [10.070120335536075]
マルチモーダル3Dオブジェクト検出は、自動運転にかなりの関心を寄せている。しかし、マルチモーダル検出器は2Dピクセルの3D点を粗く融合させることから生じる次元ミスマッチに悩まされる。統一された3次元表現ときめ細かい融合によりこの問題に取り組むためのマルチモーダルフレームワークFGU3Rを提案する。
論文参考訳（メタデータ） (2025-01-08T09:26:36Z)
LargeAD: Large-Scale Cross-Sensor Data Pretraining for Autonomous Driving [52.83707400688378]
LargeADは多用途でスケーラブルなフレームワークで、さまざまな現実世界の運転データセットにわたる大規模3D事前トレーニング用に設計されている。我々のフレームワークは、VFMを利用して2次元画像から意味的にリッチなスーパーピクセルを抽出し、LiDAR点雲に整列して高品質なコントラストサンプルを生成する。提案手法は,LDARに基づくセグメント化とオブジェクト検出の両面において,線形探索と微調整の両作業において,最先端の手法よりも大幅な性能向上を実現している。
論文参考訳（メタデータ） (2025-01-07T18:59:59Z)
Progressive Multi-Modal Fusion for Robust 3D Object Detection [12.048303829428452]
既存の方法は、バードアイビュー(BEV)とパースペクティブビュー(PV)の両方のモードから特徴を投影することで、単一ビューでセンサフュージョンを実行する。本稿では,中間クエリレベルとオブジェクトクエリレベルの両方で,BEVとPVの両方の機能を組み合わせたプログレッシブフュージョンフレームワークProFusion3Dを提案する。我々のアーキテクチャは、局所的およびグローバルな特徴を融合させ、3次元オブジェクト検出の堅牢性を高める。
論文参考訳（メタデータ） (2024-10-09T22:57:47Z)
DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。 DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文参考訳（メタデータ） (2024-08-09T14:04:21Z)
UniTR: A Unified and Efficient Multi-Modal Transformer for Bird's-Eye-View Representation [113.35352122662752]
屋外3次元知覚のためのマルチモーダルバックボーンUniTRを提案する。 UniTRは、統一されたモデリングと共有パラメータで様々なモダリティを処理する。 UniTRは基本的にタスクに依存しないバックボーンであり、異なる3D知覚タスクを自然にサポートする。
論文参考訳（メタデータ） (2023-08-15T12:13:44Z)
SimDistill: Simulated Multi-modal Distillation for BEV 3D Object Detection [56.24700754048067]
多視点カメラによる3Dオブジェクト検出は低コストで普及しているが、カメラデータのみから正確に3D形状を推定することは依然として困難である。モデルアーキテクチャと蒸留戦略を慎重に構築し,シミュレートされたマルチモーダル蒸留(SimDistill)法を提案する。我々のSimDistillは、コスト効率のよいカメラのみの配置を維持しながら、3Dオブジェクト検出のためのより良い特徴表現を学習することができる。
論文参考訳（メタデータ） (2023-03-29T16:08:59Z)
MSeg3D: Multi-modal 3D Semantic Segmentation for Autonomous Driving [15.36416000750147]
マルチモーダルな3次元セマンティックセグメンテーションモデル(MSeg3D)を提案する。 MSeg3Dは依然として堅牢性を示し、LiDARのみのベースラインを改善している。
論文参考訳（メタデータ） (2023-03-15T13:13:03Z)
PiMAE: Point Cloud and Image Interactive Masked Autoencoders for 3D Object Detection [26.03582038710992]
Masked Autoencoderは強力な視覚表現を学び、いくつかの独立したモダリティで最先端の結果を得る。本研究は,実世界でしばしば提示される2つのモダリティである,ポイントクラウドとRGBイメージデータに焦点を当てる。我々は3つの側面を通して3次元と2次元の相互作用を促進する自己教師付き事前学習フレームワークPiMAEを提案する。
論文参考訳（メタデータ） (2023-03-14T17:58:03Z)
Joint-MAE: 2D-3D Joint Masked Autoencoders for 3D Point Cloud Pre-training [65.75399500494343]
Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンのための自己教師型学習において有望な性能を示した。自己監督型3次元点雲事前学習のための2D-3DジョイントMAEフレームワークであるJoint-MAEを提案する。
論文参考訳（メタデータ） (2023-02-27T17:56:18Z)
HUM3DIL: Semi-supervised Multi-modal 3D Human Pose Estimation for Autonomous Driving [95.42203932627102]
3Dの人間のポーズ推定は、自動運転車が歩行者の微妙で複雑な振る舞いを知覚し理解できるようにする新しい技術である。提案手法は,これらの補完信号を半教師付き方式で効率的に利用し,既存の手法よりも大きなマージンで性能を向上する。具体的には、LiDAR点を画素整列マルチモーダル特徴に埋め込み、トランスフォーマーの精細化段階を経る。
論文参考訳（メタデータ） (2022-12-15T11:15:14Z)
AutoAlignV2: Deformable Feature Aggregation for Dynamic Multi-Modal 3D Object Detection [17.526914782562528]
我々はAutoAlign上に構築された高速で強力なマルチモーダル3D検出フレームワークであるAutoAlignV2を提案する。我々の最良のモデルは、nuScenesテストのリーダーボード上で72.4 NDSに達し、新しい最先端の結果が得られます。
論文参考訳（メタデータ） (2022-07-21T06:17:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。