論文の概要: MIM4D: Masked Modeling with Multi-View Video for Autonomous Driving
Representation Learning
- arxiv url: http://arxiv.org/abs/2403.08760v1
- Date: Wed, 13 Mar 2024 17:58:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 13:07:14.571555
- Title: MIM4D: Masked Modeling with Multi-View Video for Autonomous Driving
Representation Learning
- Title(参考訳): MIM4D: 自律運転のためのマルチビュービデオによるマスケッドモデリング
表現学習
- Authors: Jialv Zou, Bencheng Liao, Qian Zhang, Wenyu Liu, Xinggang Wang
- Abstract要約: MIM4Dはデュアルマスク画像モデリング(MIM)に基づく新しい事前学習パラダイムである
連続的なシーンフローを用いて擬似3D機能を構築し、2次元平面上に投影して監督する。
自動運転における視覚的表現学習のためのnuScenesデータセット上で、最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 38.6654451726187
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning robust and scalable visual representations from massive multi-view
video data remains a challenge in computer vision and autonomous driving.
Existing pre-training methods either rely on expensive supervised learning with
3D annotations, limiting the scalability, or focus on single-frame or monocular
inputs, neglecting the temporal information. We propose MIM4D, a novel
pre-training paradigm based on dual masked image modeling (MIM). MIM4D
leverages both spatial and temporal relations by training on masked multi-view
video inputs. It constructs pseudo-3D features using continuous scene flow and
projects them onto 2D plane for supervision. To address the lack of dense 3D
supervision, MIM4D reconstruct pixels by employing 3D volumetric differentiable
rendering to learn geometric representations. We demonstrate that MIM4D
achieves state-of-the-art performance on the nuScenes dataset for visual
representation learning in autonomous driving. It significantly improves
existing methods on multiple downstream tasks, including BEV segmentation (8.7%
IoU), 3D object detection (3.5% mAP), and HD map construction (1.4% mAP). Our
work offers a new choice for learning representation at scale in autonomous
driving. Code and models are released at https://github.com/hustvl/MIM4D
- Abstract(参考訳): 大規模なマルチビュービデオデータから堅牢でスケーラブルな視覚表現を学ぶことは、コンピュータビジョンと自律運転において依然として課題である。
既存の事前学習手法は、3Dアノテーションによる高価な教師あり学習、スケーラビリティの制限、あるいは1フレームまたは単眼入力に集中し、時間的情報を無視している。
デュアルマスク画像モデリング(MIM)に基づく新しい事前学習パラダイムMIM4Dを提案する。
MIM4Dは、マスク付きマルチビュービデオ入力のトレーニングにより、空間的および時間的関係を利用する。
連続的なシーンフローを用いて擬似3D機能を構築し、2次元平面上に投影して監督する。
濃密な3D監督の欠如に対処するため、MIM4Dは幾何学的表現を学習するために3Dボリューム微分可能レンダリングを用いて画素を再構成する。
自律運転における視覚的表現学習のためのnuScenesデータセット上でMIM4Dが最先端のパフォーマンスを実現することを示す。
BEVセグメンテーション(8.7% IoU)、3Dオブジェクト検出(3.5% mAP)、HDマップ構築(1.4% mAP)など、複数の下流タスクにおける既存の手法を大幅に改善した。
私たちの仕事は、自律運転において大規模に表現を学習するための新しい選択肢を提供します。
コードとモデルはhttps://github.com/hustvl/MIM4Dで公開される
関連論文リスト
- EmbodiedSAM: Online Segment Any 3D Thing in Real Time [61.2321497708998]
身体的なタスクは、エージェントが探索と同時に3Dシーンを完全に理解する必要がある。
オンライン、リアルタイム、微粒化、高度に一般化された3D知覚モデルは、必死に必要である。
論文 参考訳(メタデータ) (2024-08-21T17:57:06Z) - Animate3D: Animating Any 3D Model with Multi-view Video Diffusion [47.05131487114018]
Animate3Dは静的な3Dモデルをアニメーションするための新しいフレームワークである。
本研究では,3Dオブジェクトのアニメーション化に多視点ビデオ拡散プリミティブを活用するために,再構成と4Dスコア蒸留サンプリング(4D-SDS)を組み合わせたフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T05:35:57Z) - DriveWorld: 4D Pre-trained Scene Understanding via World Models for Autonomous Driving [67.46481099962088]
現在の視覚中心の事前訓練は、通常、2Dまたは3Dのプリテキストタスクに依存し、自律運転の時間的特性を4Dシーン理解タスクとして見落としている。
我々は,マルチカメラ駆動ビデオからテンポラリな方法で事前学習が可能なEmphcentricDriveWorldを紹介した。
DriveWorldは、さまざまな自動運転タスクに関する有望な結果を提供する。
論文 参考訳(メタデータ) (2024-05-07T15:14:20Z) - Point Cloud Self-supervised Learning via 3D to Multi-view Masked
Autoencoder [21.73287941143304]
Multi-Modality Masked AutoEncoders (MAE) 法は2次元画像と3次元点雲の両方を事前学習に利用している。
本稿では、3次元から多視点のマスク付きオートエンコーダを用いて、3次元点雲のマルチモーダル特性をフル活用する手法を提案する。
提案手法は,様々な下流タスクにおいて,最先端のタスクよりも大きなマージンで性能を向上する。
論文 参考訳(メタデータ) (2023-11-17T22:10:03Z) - SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving [98.74706005223685]
3Dシーン理解は、視覚に基づく自動運転において重要な役割を果たす。
マルチカメラ画像を用いたSurroundOcc法を提案する。
論文 参考訳(メタデータ) (2023-03-16T17:59:08Z) - 3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文 参考訳(メタデータ) (2021-07-08T17:49:37Z) - PerMO: Perceiving More at Once from a Single Image for Autonomous
Driving [76.35684439949094]
単一画像から完全テクスチャ化された車両の3次元モデルを検出し,セグメント化し,再構成する新しい手法を提案する。
私たちのアプローチは、ディープラーニングの強みと従来のテクニックの優雅さを組み合わせています。
我々はこれらのアルゴリズムを自律運転システムに統合した。
論文 参考訳(メタデータ) (2020-07-16T05:02:45Z) - Multi-View Matching (MVM): Facilitating Multi-Person 3D Pose Estimation
Learning with Action-Frozen People Video [38.63662549684785]
MVM法は大規模ビデオデータセットから信頼性の高い3次元ポーズを生成する。
マルチパーソン3Dポーズ推定のための入力として,1つの画像を取るニューラルネットワークを訓練する。
論文 参考訳(メタデータ) (2020-04-11T01:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。