論文の概要: MUVO: A Multimodal Generative World Model for Autonomous Driving with
Geometric Representations
- arxiv url: http://arxiv.org/abs/2311.11762v2
- Date: Thu, 23 Nov 2023 17:26:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 01:59:34.028222
- Title: MUVO: A Multimodal Generative World Model for Autonomous Driving with
Geometric Representations
- Title(参考訳): muvo:幾何表現を用いた自律運転のためのマルチモーダル生成世界モデル
- Authors: Daniel Bogdoll, Yitian Yang, J. Marius Z\"ollner
- Abstract要約: 無人運転のための 教師なし世界モデルは 今日のシステムの 推論能力を劇的に改善する可能性がある
本稿では,この課題に対処するため,幾何ボクセル表現を用いたMUVOを提案する。
- 参考スコア(独自算出の注目度): 13.07537039737708
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning unsupervised world models for autonomous driving has the potential
to improve the reasoning capabilities of today's systems dramatically. However,
most work neglects the physical attributes of the world and focuses on sensor
data alone. We propose MUVO, a MUltimodal World Model with Geometric VOxel
Representations to address this challenge. We utilize raw camera and lidar data
to learn a sensor-agnostic geometric representation of the world, which can
directly be used by downstream tasks, such as planning. We demonstrate
multimodal future predictions and show that our geometric representation
improves the prediction quality of both camera images and lidar point clouds.
- Abstract(参考訳): 自律運転のための教師なしの世界モデルを学ぶことは、今日のシステムの推論能力を大幅に改善する可能性がある。
しかし、ほとんどの作業は世界の物理的特性を無視し、センサーデータのみに焦点を当てている。
本稿では,幾何学的ボクセル表現を持つマルチモーダル世界モデルであるmuvoを提案する。
生のカメラとライダーデータを用いて,センサに依存しない世界の幾何学的表現を学習する。
マルチモーダルな将来の予測を実証し,この幾何表現により,カメラ画像とライダー点雲の両方の予測品質が向上することを示す。
関連論文リスト
- Exploring the Interplay Between Video Generation and World Models in Autonomous Driving: A Survey [61.39993881402787]
世界モデルとビデオ生成は、自動運転の領域において重要な技術である。
本稿では,この2つの技術の関係について検討する。
映像生成モデルと世界モデルとの相互作用を分析することにより,重要な課題と今後の研究方向性を明らかにする。
論文 参考訳(メタデータ) (2024-11-05T08:58:35Z) - DrivingDojo Dataset: Advancing Interactive and Knowledge-Enriched Driving World Model [65.43473733967038]
私たちは、複雑な駆動ダイナミクスを備えたインタラクティブな世界モデルのトレーニング用に作られた最初のデータセットであるDrivingDojoを紹介します。
私たちのデータセットには、完全な運転操作、多様なマルチエージェント・インタープレイ、豊富なオープンワールド運転知識を備えたビデオクリップが含まれています。
論文 参考訳(メタデータ) (2024-10-14T17:19:23Z) - Driving in the Occupancy World: Vision-Centric 4D Occupancy Forecasting and Planning via World Models for Autonomous Driving [15.100104512786107]
Drive-OccWorldは、自動運転のエンドツーエンド計画にビジョン中心の4D予測ワールドモデルを適用する。
本研究では, 速度, 操舵角度, 軌道, 指令などの柔軟な動作条件を世界モデルに注入することを提案する。
nuScenesデータセットの実験により,本手法は可塑性かつ制御可能な4D占有率を生成可能であることが示された。
論文 参考訳(メタデータ) (2024-08-26T11:53:09Z) - Probing Multimodal LLMs as World Models for Driving [72.18727651074563]
自律運転におけるMLLM(Multimodal Large Language Models)の適用について検討する。
GPT-4oのようなモデルの開発は進んでいるが、複雑な運転環境における性能は未解明のままである。
論文 参考訳(メタデータ) (2024-05-09T17:52:42Z) - Is Sora a World Simulator? A Comprehensive Survey on General World Models and Beyond [101.15395503285804]
一般世界モデルは、人工知能(AGI)の実現への決定的な道のりを表現している
本調査では,世界モデルの最新動向を包括的に調査する。
我々は,世界モデルの課題と限界について検討し,今後の方向性について考察する。
論文 参考訳(メタデータ) (2024-05-06T14:37:07Z) - Driving into the Future: Multiview Visual Forecasting and Planning with
World Model for Autonomous Driving [56.381918362410175]
Drive-WMは、既存のエンド・ツー・エンドの計画モデルと互換性のある世界初のドライビングワールドモデルである。
ドライビングシーンで高忠実度マルチビュー映像を生成する。
論文 参考訳(メタデータ) (2023-11-29T18:59:47Z) - Copilot4D: Learning Unsupervised World Models for Autonomous Driving via Discrete Diffusion [36.321494200830244]
Copilot4Dは、まずVQVAEでセンサ観測をトークン化し、次に離散拡散によって未来を予測する新しい世界モデリング手法である。
本研究は,ロボット工学におけるGPTのような非教師なし学習のパワーを,トークン化エージェント体験における離散拡散によって解き放つことを示す。
論文 参考訳(メタデータ) (2023-11-02T06:21:56Z) - Neural World Models for Computer Vision [2.741266294612776]
深層ニューラルネットワークによってパラメータ化された世界モデルと政策をトレーニングするためのフレームワークを提案する。
我々は、幾何学、意味論、動きといった重要なコンピュータビジョンの概念を活用して、複雑な都市運転シーンに世界モデルを拡張する。
都会の運転環境における静的シーン, 動的シーン, エゴビヘイビアを共同で予測できる。
論文 参考訳(メタデータ) (2023-06-15T14:58:21Z) - VISTA 2.0: An Open, Data-driven Simulator for Multimodal Sensing and
Policy Learning for Autonomous Vehicles [131.2240621036954]
VISTAはオープンソースのデータ駆動シミュレータで、複数のタイプのセンサーを自律走行車に組み込む。
高忠実で実世界のデータセットを使用して、VISTAはRGBカメラ、3D LiDAR、イベントベースのカメラを表現し、シミュレートする。
センサタイプ毎に知覚制御ポリシーをトレーニングし,テストする能力を示し,フルスケールの自律走行車への展開を通じて,このアプローチのパワーを示す。
論文 参考訳(メタデータ) (2021-11-23T18:58:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。