論文の概要: BEV-VAE: Multi-view Image Generation with Spatial Consistency for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2507.00707v1
- Date: Tue, 01 Jul 2025 12:10:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.622917
- Title: BEV-VAE: Multi-view Image Generation with Spatial Consistency for Autonomous Driving
- Title(参考訳): BEV-VAE: 自律運転のための空間一貫性を有する多視点画像生成
- Authors: Zeming Chen, Hang Zhao,
- Abstract要約: 自律運転におけるマルチビュー画像生成は、カメラビュー全体にわたって一貫した3Dシーン理解を要求する。
本稿では、一貫した制御可能なビュー合成のためのBEV-VAEを提案する。
- 参考スコア(独自算出の注目度): 41.64212494986416
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-view image generation in autonomous driving demands consistent 3D scene understanding across camera views. Most existing methods treat this problem as a 2D image set generation task, lacking explicit 3D modeling. However, we argue that a structured representation is crucial for scene generation, especially for autonomous driving applications. This paper proposes BEV-VAE for consistent and controllable view synthesis. BEV-VAE first trains a multi-view image variational autoencoder for a compact and unified BEV latent space and then generates the scene with a latent diffusion transformer. BEV-VAE supports arbitrary view generation given camera configurations, and optionally 3D layouts. Experiments on nuScenes and Argoverse 2 (AV2) show strong performance in both 3D consistent reconstruction and generation. The code is available at: https://github.com/Czm369/bev-vae.
- Abstract(参考訳): 自律運転におけるマルチビュー画像生成は、カメラビュー全体にわたって一貫した3Dシーン理解を要求する。
既存の手法の多くは、この問題を2次元画像集合生成タスクとして扱い、明示的な3次元モデリングを欠いている。
しかし,シーン生成には構造化表現が不可欠であり,特に自律運転アプリケーションには重要であると論じる。
本稿では、一貫した制御可能なビュー合成のためのBEV-VAEを提案する。
BEV-VAEは、まず、コンパクトで統一されたBEV潜時空間のための多視点画像変分オートエンコーダを訓練し、潜時拡散変換器を用いてシーンを生成する。
BEV-VAEは任意のビュー生成とカメラ構成、オプションで3Dレイアウトをサポートする。
nuScenes と Argoverse 2 (AV2) の実験は、3次元一貫した再構成と生成の両方において強い性能を示した。
コードは、https://github.com/Czm369/bev-vae.comで入手できる。
関連論文リスト
- MagicDrive3D: Controllable 3D Generation for Any-View Rendering in Street Scenes [72.02827211293736]
制御可能な3Dストリートシーン生成のための新しいパイプラインであるMagicDrive3Dを紹介する。
生成モデルをトレーニングする前に再構築する従来の方法とは異なり、MagicDrive3Dはまずビデオ生成モデルをトレーニングし、生成したデータから再構成する。
本研究の結果は, 自律運転シミュレーション等の可能性を示すとともに, フレームワークの優れた性能を示すものである。
論文 参考訳(メタデータ) (2024-05-23T12:04:51Z) - Multi-camera Bird's Eye View Perception for Autonomous Driving [17.834495597639805]
他のエージェントや構造の空間的推論を可能にするためには、3Dで知覚出力を生成することが不可欠である。
カメラ画像から所望のBEV表現を達成するための最も基本的なアプローチは、平らな地面を仮定してIPMである。
近年のアプローチでは、ディープニューラルネットワークを使用してBEV空間を直接出力している。
論文 参考訳(メタデータ) (2023-09-16T19:12:05Z) - UniScene: Multi-Camera Unified Pre-training via 3D Scene Reconstruction for Autonomous Driving [11.507979392707448]
我々は、UniSceneと呼ばれる、最初のマルチカメラ統合事前学習フレームワークを提案する。
我々は3次元シーンの一般的な表現としてOccupancyを使用し、そのモデルが周囲の世界の幾何学的先行を把握できるようにする。
UniSceneは、マルチカメラ3Dオブジェクト検出において、mAPが約2.0%、NDSが約2.0%、セマンティックシーン完了時のmIoUが3%向上した。
論文 参考訳(メタデータ) (2023-05-30T08:23:06Z) - VoxelFormer: Bird's-Eye-View Feature Generation based on Dual-view
Attention for Multi-view 3D Object Detection [47.926010021559314]
変圧器を用いた検出器は2次元視覚知覚タスクにおいて顕著な性能を示した。
しかし、多視点3Dオブジェクト検出におけるそれらの性能は、畳み込みニューラルネットワークに基づく検出器の最先端(SOTA)よりも劣っている。
本稿では,BEVとカメラの両方から注目重みを生成する,新しいBEV特徴生成手法を提案する。
論文 参考訳(メタデータ) (2023-04-03T15:00:36Z) - Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction [84.94140661523956]
本稿では,2つの垂直面を追加してBEVに付随するトリ・パースペクティブ・ビュー(TPV)表現を提案する。
3次元空間の各点を3次元平面上の投影された特徴をまとめてモデル化する。
実験結果から,本モデルは全ボクセルのセマンティック占有率を効果的に予測できることが示唆された。
論文 参考訳(メタデータ) (2023-02-15T17:58:10Z) - M^2BEV: Multi-Camera Joint 3D Detection and Segmentation with Unified
Birds-Eye View Representation [145.6041893646006]
M$2$BEVは3Dオブジェクトの検出とマップのセグメンテーションを共同で行う統合フレームワークである。
M$2$BEVは、両方のタスクを統一モデルで推論し、効率を向上する。
論文 参考訳(メタデータ) (2022-04-11T13:43:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。