論文の概要: BEVWorld: A Multimodal World Model for Autonomous Driving via Unified BEV Latent Space
- arxiv url: http://arxiv.org/abs/2407.05679v2
- Date: Thu, 18 Jul 2024 08:33:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 20:12:48.445978
- Title: BEVWorld: A Multimodal World Model for Autonomous Driving via Unified BEV Latent Space
- Title(参考訳): BEVWorld: 統一型BEVラテントスペースによる自律走行のためのマルチモーダル世界モデル
- Authors: Yumeng Zhang, Shi Gong, Kaixin Xiong, Xiaoqing Ye, Xiao Tan, Fan Wang, Jizhou Huang, Hua Wu, Haifeng Wang,
- Abstract要約: BEVWorldは,マルチモーダルセンサの入力を,環境モデリングのための統一的でコンパクトなBird's Eye View潜在空間にトークン化する手法である。
実験は、自律走行タスクにおけるBEVWorldの有効性を示し、将来のシーンを生成する能力を示し、知覚や動き予測のような下流タスクに恩恵を与える。
- 参考スコア(独自算出の注目度): 57.68134574076005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: World models are receiving increasing attention in autonomous driving for their ability to predict potential future scenarios. In this paper, we present BEVWorld, a novel approach that tokenizes multimodal sensor inputs into a unified and compact Bird's Eye View (BEV) latent space for environment modeling. The world model consists of two parts: the multi-modal tokenizer and the latent BEV sequence diffusion model. The multi-modal tokenizer first encodes multi-modality information and the decoder is able to reconstruct the latent BEV tokens into LiDAR and image observations by ray-casting rendering in a self-supervised manner. Then the latent BEV sequence diffusion model predicts future scenarios given action tokens as conditions. Experiments demonstrate the effectiveness of BEVWorld in autonomous driving tasks, showcasing its capability in generating future scenes and benefiting downstream tasks such as perception and motion prediction. Code will be available at https://github.com/zympsyche/BevWorld.
- Abstract(参考訳): 世界モデルは、将来のシナリオを予測する能力のために、自動運転に注目が集まっている。
本稿では,BEVWorldを提案する。BEVWorldは環境モデリングのための,マルチモーダルセンサ入力を統一的でコンパクトなBird's Eye View (BEV)潜在空間にトークン化する手法である。
世界モデルは、マルチモーダル・トークンーザと潜在型BEVシーケンス拡散モデルという2つの部分から構成される。
マルチモーダル・トークンライザは、まずマルチモーダル情報を符号化し、デコーダは、遅延したBEVトークンをLiDARに再構成し、自ら監督された方法でレイキャストレンダリングにより画像観察することができる。
次に、潜在BEVシーケンス拡散モデルにより、与えられたアクショントークンを条件として将来のシナリオを予測する。
実験は、自律走行タスクにおけるBEVWorldの有効性を示し、将来のシーンを生成する能力を示し、知覚や動き予測のような下流タスクに恩恵を与える。
コードはhttps://github.com/zympsyche/BevWorld.comで入手できる。
関連論文リスト
- SimBEV: A Synthetic Multi-Task Multi-Sensor Driving Data Generation Tool and Dataset [101.51012770913627]
近年,自律運転に対するBEV(Bird's-eye view)の認識が注目されている。
我々は,複数の情報源からの情報を組み込んだ合成データ生成ツールであるSimBEVを紹介した。
我々はSimBEVデータセットを作成するためにSimBEVを使用します。
論文 参考訳(メタデータ) (2025-02-04T00:00:06Z) - EnerVerse: Envisioning Embodied Future Space for Robotics Manipulation [55.26713167507132]
本稿では,エンボディ空間の構築と解釈を行う生成ロボティクス基礎モデルを提案する。
EnerVerseは、自己回帰的ビデオ拡散フレームワークを使用して、命令から将来のエンボディドスペースを予測する。
本稿では,生成モデルと4次元ガウススプラッティングを組み合わせたデータエンジンパイプラインであるEnerVerse-Dについて述べる。
論文 参考訳(メタデータ) (2025-01-03T17:00:33Z) - DrivingGPT: Unifying Driving World Modeling and Planning with Multi-modal Autoregressive Transformers [61.92571851411509]
我々は、インターリーブ画像とアクショントークンに基づくマルチモーダル駆動言語を導入し、共同世界モデリングと計画を学ぶためのDrivingGPTを開発した。
我々のDrivingGPTは、アクション条件付きビデオ生成とエンドツーエンドプランニングの両方において強力なパフォーマンスを示し、大規模なnuPlanとNAVSIMベンチマークにおいて強力なベースラインを達成しています。
論文 参考訳(メタデータ) (2024-12-24T18:59:37Z) - Multimodal Latent Language Modeling with Next-Token Diffusion [111.93906046452125]
マルチモーダル生成モデルは、離散データ(テキストやコードなど)と連続データ(画像、オーディオ、ビデオなど)の両方を扱う統一的なアプローチを必要とする。
因果変換器を用いて連続データと離散データをシームレスに統合する潜在言語モデリング(LatentLM)を提案する。
論文 参考訳(メタデータ) (2024-12-11T18:57:32Z) - CASPFormer: Trajectory Prediction from BEV Images with Deformable
Attention [4.9349065371630045]
本研究では,空間化されたBird-Eye-View(BEV)画像からマルチモーダルな動作予測を行うことができるコンテキスト認識シーン予測変換器(CASPFormer)を提案する。
我々のシステムは、BEV画像を生成することができる上流認識モジュールと統合することができる。
我々は、nuScenesデータセット上でモデルを評価し、複数のメトリクスにまたがって最先端に到達していることを示す。
論文 参考訳(メタデータ) (2024-09-26T12:37:22Z) - Driving in the Occupancy World: Vision-Centric 4D Occupancy Forecasting and Planning via World Models for Autonomous Driving [15.100104512786107]
Drive-OccWorldは、自動運転のエンドツーエンド計画にビジョン中心の4D予測ワールドモデルを適用する。
制御可能な生成を可能にするために,速度,操舵角度,軌道,指令などの柔軟な動作条件を世界モデルに注入することを提案する。
本手法は,多目的かつ制御可能な4D占有率を創出し,次世代の運転とエンド・ツー・エンド・プランニングの進歩への道を開く。
論文 参考訳(メタデータ) (2024-08-26T11:53:09Z) - PowerBEV: A Powerful Yet Lightweight Framework for Instance Prediction
in Bird's-Eye View [14.113805629254191]
鳥眼ビュー(Bird's-eye view, BEV)は、自律運転の認識において一般的な場所である。
BEVインスタンス予測の既存のアプローチは、将来のインスタンスを予測するために、後処理と組み合わせたマルチタスクの自動回帰に依存している。
提案手法は, 従来の手法の冗長性を低減すべく, 設計選択の異なる, POWERBEV という, 効率的なエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T08:11:05Z) - DiffBEV: Conditional Diffusion Model for Bird's Eye View Perception [14.968177102647783]
そこで我々は,より包括的なBEV表現を生成するために拡散モデルの可能性を活用するために,DiffBEVというエンドツーエンドフレームワークを提案する。
実際に,粗いサンプルを識別し,意味的特徴を洗練する拡散モデルの訓練を指導する3種類の条件を設計する。
DiffBEV が nuScenes データセット上で 25.9% mIoU を達成することを示す。
論文 参考訳(メタデータ) (2023-03-15T02:42:48Z) - BEVerse: Unified Perception and Prediction in Birds-Eye-View for
Vision-Centric Autonomous Driving [92.05963633802979]
マルチカメラシステムに基づく3次元認識と予測のための統合フレームワークであるBEVerseを提案する。
マルチタスクBEVerseは3次元オブジェクト検出,セマンティックマップ構築,動き予測において単一タスク法より優れていることを示す。
論文 参考訳(メタデータ) (2022-05-19T17:55:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。