論文の概要: HoloDrive: Holistic 2D-3D Multi-Modal Street Scene Generation for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2412.01407v2
- Date: Tue, 03 Dec 2024 13:14:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:45:10.926995
- Title: HoloDrive: Holistic 2D-3D Multi-Modal Street Scene Generation for Autonomous Driving
- Title(参考訳): HoloDrive: 自律運転のためのホロスティック2D-3Dマルチモーダルストリートシーン生成
- Authors: Zehuan Wu, Jingcheng Ni, Xiaodong Wang, Yuxin Guo, Rui Chen, Lewei Lu, Jifeng Dai, Yuwen Xiong,
- Abstract要約: 我々は,カメラ画像とLiDAR点雲を共同生成するフレームワークであるemphHoloDriveを提案する。
異種生成モデル間でBEV-to-Cameraおよびカメラ-to-BEV変換モジュールを用いる。
提案手法は,SOTA法に比べて,生成指標の点で顕著な性能向上をもたらす。
- 参考スコア(独自算出の注目度): 29.327572707959916
- License:
- Abstract: Generative models have significantly improved the generation and prediction quality on either camera images or LiDAR point clouds for autonomous driving. However, a real-world autonomous driving system uses multiple kinds of input modality, usually cameras and LiDARs, where they contain complementary information for generation, while existing generation methods ignore this crucial feature, resulting in the generated results only covering separate 2D or 3D information. In order to fill the gap in 2D-3D multi-modal joint generation for autonomous driving, in this paper, we propose our framework, \emph{HoloDrive}, to jointly generate the camera images and LiDAR point clouds. We employ BEV-to-Camera and Camera-to-BEV transform modules between heterogeneous generative models, and introduce a depth prediction branch in the 2D generative model to disambiguate the un-projecting from image space to BEV space, then extend the method to predict the future by adding temporal structure and carefully designed progressive training. Further, we conduct experiments on single frame generation and world model benchmarks, and demonstrate our method leads to significant performance gains over SOTA methods in terms of generation metrics.
- Abstract(参考訳): 生成モデルは、自律運転用のカメラ画像またはLiDAR点雲の生成と予測品質を大幅に改善した。
しかし、現実の自律運転システムは、通常カメラやLiDARなど、複数の種類の入力モダリティを使用し、それらが生成のための補完的な情報を含んでいるのに対して、既存の生成方法は、この重要な特徴を無視しているため、生成された結果が2Dまたは3D情報のみをカバーすることになる。
本稿では,自律運転のための2D-3Dマルチモーダルジョイント生成のギャップを埋めるために,カメラ画像とLiDAR点雲を共同生成するフレームワークであるemph{HoloDrive}を提案する。
我々は、異種生成モデル間のBEV-to-Camera変換モジュールとカメラ-to-BEV変換モジュールを用い、2次元生成モデルに奥行き予測分岐を導入し、画像空間からBEV空間への未投影を曖昧にし、時間的構造を加えて未来を予測する方法を拡張し、プログレッシブトレーニングを慎重に設計した。
さらに, 単一フレーム生成と世界モデルベンチマークの実験を行い, 提案手法がSOTA法よりも高い性能向上をもたらすことを示す。
関連論文リスト
- LargeAD: Large-Scale Cross-Sensor Data Pretraining for Autonomous Driving [52.83707400688378]
LargeADは多用途でスケーラブルなフレームワークで、さまざまな現実世界の運転データセットにわたる大規模3D事前トレーニング用に設計されている。
我々のフレームワークは、VFMを利用して2次元画像から意味的にリッチなスーパーピクセルを抽出し、LiDAR点雲に整列して高品質なコントラストサンプルを生成する。
提案手法は,LDARに基づくセグメント化とオブジェクト検出の両面において,線形探索と微調整の両作業において,最先端の手法よりも大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2025-01-07T18:59:59Z) - Prometheus: 3D-Aware Latent Diffusion Models for Feed-Forward Text-to-3D Scene Generation [51.36926306499593]
Prometheusはオブジェクトレベルとシーンレベルの両方を秒単位でテキストから3D生成するための3D対応潜時拡散モデルである。
遅延拡散パラダイムにおいて、3Dシーン生成を多視点, フィードフォワード, ピクセルアラインな3Dガウス生成として定式化する。
論文 参考訳(メタデータ) (2024-12-30T17:44:23Z) - VQA-Diff: Exploiting VQA and Diffusion for Zero-Shot Image-to-3D Vehicle Asset Generation in Autonomous Driving [25.03216574230919]
VQA-Diff(VQA-Diff)は、車載画像を活用し、自動運転車のための3D車両資産を作成する新しいフレームワークである。
VQA-Diffは、VQA(Visual Question Answering)モデルにおけるLarge Language Modelから受け継いだ実世界の知識を利用して、堅牢なゼロショット予測を行う。
我々はPascal 3D+を含む様々なデータセットの実験を行い、VQA-Diffが既存の最先端手法よりも質的かつ定量的に優れていることを示す。
論文 参考訳(メタデータ) (2024-07-09T03:09:55Z) - MagicDrive3D: Controllable 3D Generation for Any-View Rendering in Street Scenes [72.02827211293736]
制御可能な3Dストリートシーン生成のための新しいパイプラインであるMagicDrive3Dを紹介する。
生成モデルをトレーニングする前に再構築する従来の方法とは異なり、MagicDrive3Dはまずビデオ生成モデルをトレーニングし、生成したデータから再構成する。
本研究の結果は, 自律運転シミュレーション等の可能性を示すとともに, フレームワークの優れた性能を示すものである。
論文 参考訳(メタデータ) (2024-05-23T12:04:51Z) - X-Dreamer: Creating High-quality 3D Content by Bridging the Domain Gap Between Text-to-2D and Text-to-3D Generation [61.48050470095969]
X-Dreamerは高品質なテキストから3Dコンテンツを作成するための新しいアプローチである。
テキスト対2D合成とテキスト対3D合成のギャップを埋める。
論文 参考訳(メタデータ) (2023-11-30T07:23:00Z) - Take-A-Photo: 3D-to-2D Generative Pre-training of Point Cloud Models [97.58685709663287]
生成事前学習は、2次元視覚における基本モデルの性能を高めることができる。
3Dビジョンでは、トランスフォーマーベースのバックボーンの過度な信頼性と、点雲の秩序のない性質により、生成前のトレーニングのさらなる発展が制限されている。
本稿では,任意の点クラウドモデルに適用可能な3D-to-2D生成事前学習法を提案する。
論文 参考訳(メタデータ) (2023-07-27T16:07:03Z) - GINA-3D: Learning to Generate Implicit Neural Assets in the Wild [38.51391650845503]
GINA-3Dは、カメラとLiDARセンサーの実際の運転データを使用して、多様な車や歩行者の3D暗黙的な神経資産を作成する生成モデルである。
車両と歩行者の1.2万枚以上の画像を含む大規模オブジェクト中心データセットを構築した。
生成した画像とジオメトリの両面において、品質と多様性の最先端性能を実現することを実証した。
論文 参考訳(メタデータ) (2023-04-04T23:41:20Z) - Benchmarking the Robustness of LiDAR-Camera Fusion for 3D Object
Detection [58.81316192862618]
自律運転における3D知覚のための2つの重要なセンサーは、カメラとLiDARである。
これら2つのモダリティを融合させることで、3次元知覚モデルの性能を大幅に向上させることができる。
我々は、最先端の核融合法を初めてベンチマークした。
論文 参考訳(メタデータ) (2022-05-30T09:35:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。