Fugu-MT 論文翻訳(概要): BEVWorld: A Multimodal World Model for Autonomous Driving via Unified BEV Latent Space

論文の概要: BEVWorld: A Multimodal World Model for Autonomous Driving via Unified BEV Latent Space

arxiv url: http://arxiv.org/abs/2407.05679v2
Date: Thu, 18 Jul 2024 08:33:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-19 20:12:48.445978
Title: BEVWorld: A Multimodal World Model for Autonomous Driving via Unified BEV Latent Space
Title（参考訳）: BEVWorld: 統一型BEVラテントスペースによる自律走行のためのマルチモーダル世界モデル
Authors: Yumeng Zhang, Shi Gong, Kaixin Xiong, Xiaoqing Ye, Xiao Tan, Fan Wang, Jizhou Huang, Hua Wu, Haifeng Wang,
Abstract要約: BEVWorldは,マルチモーダルセンサの入力を,環境モデリングのための統一的でコンパクトなBird's Eye View潜在空間にトークン化する手法である。実験は、自律走行タスクにおけるBEVWorldの有効性を示し、将来のシーンを生成する能力を示し、知覚や動き予測のような下流タスクに恩恵を与える。
参考スコア（独自算出の注目度）: 57.68134574076005
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: World models are receiving increasing attention in autonomous driving for their ability to predict potential future scenarios. In this paper, we present BEVWorld, a novel approach that tokenizes multimodal sensor inputs into a unified and compact Bird's Eye View (BEV) latent space for environment modeling. The world model consists of two parts: the multi-modal tokenizer and the latent BEV sequence diffusion model. The multi-modal tokenizer first encodes multi-modality information and the decoder is able to reconstruct the latent BEV tokens into LiDAR and image observations by ray-casting rendering in a self-supervised manner. Then the latent BEV sequence diffusion model predicts future scenarios given action tokens as conditions. Experiments demonstrate the effectiveness of BEVWorld in autonomous driving tasks, showcasing its capability in generating future scenes and benefiting downstream tasks such as perception and motion prediction. Code will be available at https://github.com/zympsyche/BevWorld.
Abstract（参考訳）: 世界モデルは、将来のシナリオを予測する能力のために、自動運転に注目が集まっている。本稿では,BEVWorldを提案する。BEVWorldは環境モデリングのための,マルチモーダルセンサ入力を統一的でコンパクトなBird's Eye View (BEV)潜在空間にトークン化する手法である。世界モデルは、マルチモーダル・トークンーザと潜在型BEVシーケンス拡散モデルという2つの部分から構成される。マルチモーダル・トークンライザは、まずマルチモーダル情報を符号化し、デコーダは、遅延したBEVトークンをLiDARに再構成し、自ら監督された方法でレイキャストレンダリングにより画像観察することができる。次に、潜在BEVシーケンス拡散モデルにより、与えられたアクショントークンを条件として将来のシナリオを予測する。実験は、自律走行タスクにおけるBEVWorldの有効性を示し、将来のシーンを生成する能力を示し、知覚や動き予測のような下流タスクに恩恵を与える。コードはhttps://github.com/zympsyche/BevWorld.comで入手できる。

関連論文リスト

BEV-LLM: Leveraging Multimodal BEV Maps for Scene Captioning in Autonomous Driving [3.061835990893183]
本稿では,自律走行シーンの3次元キャプションのための軽量モデルであるBEV-LLMを紹介する。 BEV-LLMは、小さな1Bパラメータベースモデルを使用しても、nuCaptionデータセット上での競合的なパフォーマンスを達成する。さまざまな運転シナリオのシーンキャプションをよりよく評価する2つの新しいデータセットをリリースする。
論文参考訳（メタデータ） (2025-07-25T15:22:56Z)
End-to-End Driving with Online Trajectory Evaluation via BEV World Model [52.10633338584164]
本稿では,BEV Worldモデルを活用し,将来のBEV状態を予測するためのエンドツーエンド駆動フレームワークWoTEを提案する。我々は,NAVSIMベンチマークとCARLAシミュレータに基づく閉ループBench2Driveベンチマークを用いて,最先端性能を実現する。
論文参考訳（メタデータ） (2025-04-02T17:47:23Z)
Unified Human Localization and Trajectory Prediction with Monocular Vision [64.19384064365431]
MonoTransmotionはトランスフォーマーベースのフレームワークで、モノクロカメラのみを使用して、ローカライゼーションと予測タスクを共同で解決する。両タスクを統合フレームワークで共同でトレーニングすることにより,ノイズの多い入力による実環境シナリオにおいて,我々の手法がより堅牢であることを示す。
論文参考訳（メタデータ） (2025-03-05T14:18:39Z)
SimBEV: A Synthetic Multi-Task Multi-Sensor Driving Data Generation Tool and Dataset [101.51012770913627]
近年,BEV(Bird's-eye view)の認識は自律運転において大きな注目を集めている。 SimBEVは、広範囲にスケーラブルでスケーラブルなランダム化された合成データ生成ツールである。 SimBEVは、さまざまな運転シナリオからの注釈付き知覚データの大規模なコレクションであるSimBEVデータセットを作成するために使用される。
論文参考訳（メタデータ） (2025-02-04T00:00:06Z)
BEVPose: Unveiling Scene Semantics through Pose-Guided Multi-Modal BEV Alignment [8.098296280937518]
本稿では,カメラとライダーデータからBEV表現を統合するフレームワークであるBEVPoseについて,センサポーズを誘導監視信号として用いた。ポーズ情報を活用することで,環境の幾何学的側面と意味的側面の両方を捉えた潜在的BEV埋め込みの学習を容易にし,マルチモーダルな感覚入力を調整・融合する。
論文参考訳（メタデータ） (2024-10-28T12:40:27Z)
CASPFormer: Trajectory Prediction from BEV Images with Deformable Attention [4.9349065371630045]
本研究では,空間化されたBird-Eye-View(BEV)画像からマルチモーダルな動作予測を行うことができるコンテキスト認識シーン予測変換器(CASPFormer)を提案する。我々のシステムは、BEV画像を生成することができる上流認識モジュールと統合することができる。我々は、nuScenesデータセット上でモデルを評価し、複数のメトリクスにまたがって最先端に到達していることを示す。
論文参考訳（メタデータ） (2024-09-26T12:37:22Z)
From Bird's-Eye to Street View: Crafting Diverse and Condition-Aligned Images with Latent Diffusion Model [16.716345249091408]
我々は,バード・アイビューの生成を探索し,BEVマップを対応する多視点ストリートイメージに変換する。提案手法は,ニューラルビュー変換とストリート画像生成の2つの主要コンポーネントから構成される。
論文参考訳（メタデータ） (2024-09-02T07:47:16Z)
GenAD: Generalized Predictive Model for Autonomous Driving [75.39517472462089]
本稿では,自動運転分野における最初の大規模ビデオ予測モデルを紹介する。我々のモデルはGenADと呼ばれ、新しい時間的推論ブロックでシーンを駆動する際の挑戦的なダイナミクスを扱う。アクション条件付き予測モデルやモーションプランナーに適応することができ、現実世界の運転アプリケーションに大きな可能性を秘めている。
論文参考訳（メタデータ） (2024-03-14T17:58:33Z)
Driving into the Future: Multiview Visual Forecasting and Planning with World Model for Autonomous Driving [56.381918362410175]
Drive-WMは、既存のエンド・ツー・エンドの計画モデルと互換性のある世界初のドライビングワールドモデルである。ドライビングシーンで高忠実度マルチビュー映像を生成する。
論文参考訳（メタデータ） (2023-11-29T18:59:47Z)
Copilot4D: Learning Unsupervised World Models for Autonomous Driving via Discrete Diffusion [36.321494200830244]
Copilot4Dは、まずVQVAEでセンサ観測をトークン化し、次に離散拡散によって未来を予測する新しい世界モデリング手法である。本研究は,ロボット工学におけるGPTのような非教師なし学習のパワーを,トークン化エージェント体験における離散拡散によって解き放つことを示す。
論文参考訳（メタデータ） (2023-11-02T06:21:56Z)
Drive Anywhere: Generalizable End-to-end Autonomous Driving with Multi-modal Foundation Models [114.69732301904419]
本稿では、画像とテキストで検索可能な表現から、運転決定を提供することができる、エンドツーエンドのオープンセット(環境/シーン)自律運転を適用するアプローチを提案する。当社のアプローチでは, 多様なテストにおいて非並列的な結果を示すと同時に, アウト・オブ・ディストリビューションの状況において, はるかに高いロバスト性を実現している。
論文参考訳（メタデータ） (2023-10-26T17:56:35Z)
ProbVLM: Probabilistic Adapter for Frozen Vision-Language Models [69.50316788263433]
本稿では,事前学習された視覚言語モデルの埋め込みに対する確率分布を推定する確率的アダプタProbVLMを提案する。本稿では,検索タスクにおける不確実性埋め込みのキャリブレーションを定量化し,ProbVLMが他の手法よりも優れていることを示す。本稿では,大規模な事前学習型潜伏拡散モデルを用いて,埋め込み分布を可視化する新しい手法を提案する。
論文参考訳（メタデータ） (2023-07-01T18:16:06Z)
PowerBEV: A Powerful Yet Lightweight Framework for Instance Prediction in Bird's-Eye View [14.113805629254191]
鳥眼ビュー(Bird's-eye view, BEV)は、自律運転の認識において一般的な場所である。 BEVインスタンス予測の既存のアプローチは、将来のインスタンスを予測するために、後処理と組み合わせたマルチタスクの自動回帰に依存している。提案手法は, 従来の手法の冗長性を低減すべく, 設計選択の異なる, POWERBEV という, 効率的なエンドツーエンドフレームワークを提案する。
論文参考訳（メタデータ） (2023-06-19T08:11:05Z)
TBP-Former: Learning Temporal Bird's-Eye-View Pyramid for Joint Perception and Prediction in Vision-Centric Autonomous Driving [45.785865869298576]
視覚中心の関節知覚と予測は、自律運転研究の新たなトレンドとなっている。生のRGB画像から周囲環境における参加者の今後の状況を予測する。複数のカメラビューとタイムスタンプで得られた機能を同期させることは、依然として重要な課題である。
論文参考訳（メタデータ） (2023-03-17T14:20:28Z)
DiffBEV: Conditional Diffusion Model for Bird's Eye View Perception [14.968177102647783]
そこで我々は,より包括的なBEV表現を生成するために拡散モデルの可能性を活用するために,DiffBEVというエンドツーエンドフレームワークを提案する。実際に,粗いサンプルを識別し,意味的特徴を洗練する拡散モデルの訓練を指導する3種類の条件を設計する。 DiffBEV が nuScenes データセット上で 25.9% mIoU を達成することを示す。
論文参考訳（メタデータ） (2023-03-15T02:42:48Z)
Street-View Image Generation from a Bird's-Eye View Layout [95.36869800896335]
近年,Bird's-Eye View (BEV) の知覚が注目されている。自動運転のためのデータ駆動シミュレーションは、最近の研究の焦点となっている。本稿では,現実的かつ空間的に一貫した周辺画像を合成する条件生成モデルであるBEVGenを提案する。
論文参考訳（メタデータ） (2023-01-11T18:39:34Z)
BEVerse: Unified Perception and Prediction in Birds-Eye-View for Vision-Centric Autonomous Driving [92.05963633802979]
マルチカメラシステムに基づく3次元認識と予測のための統合フレームワークであるBEVerseを提案する。マルチタスクBEVerseは3次元オブジェクト検出,セマンティックマップ構築,動き予測において単一タスク法より優れていることを示す。
論文参考訳（メタデータ） (2022-05-19T17:55:35Z)
Imagining The Road Ahead: Multi-Agent Trajectory Prediction via Differentiable Simulation [17.953880589741438]
軌道予測のための完全微分可能なシミュレータを用いた深部生成モデルを開発した。本稿では,標準ニューラルアーキテクチャと標準変動訓練目標を用いて,インタラクションデータセットの最先端の結果を得る。 Imagining the Road Ahead" からモデル ITRA と命名した。
論文参考訳（メタデータ） (2021-04-22T17:48:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。