論文の概要: MUVO: A Multimodal World Model with Spatial Representations for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2311.11762v3
- Date: Fri, 26 Jul 2024 13:52:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-29 18:31:34.102626
- Title: MUVO: A Multimodal World Model with Spatial Representations for Autonomous Driving
- Title(参考訳): MUVO:自律運転のための空間表現を用いたマルチモーダル世界モデル
- Authors: Daniel Bogdoll, Yitian Yang, Tim Joseph, J. Marius Zöllner,
- Abstract要約: 無人運転のための 教師なし世界モデルは 今日のシステムの 推論能力を劇的に改善する可能性がある
本稿では,この課題に対処するため,空間的VOxel表現を持つMUVOを提案する。
- 参考スコア(独自算出の注目度): 18.179088700092567
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning unsupervised world models for autonomous driving has the potential to improve the reasoning capabilities of today's systems dramatically. However, most work neglects the physical attributes of the world and focuses on sensor data alone. We propose MUVO, a MUltimodal World Model with spatial VOxel representations, to address this challenge. We utilize raw camera and lidar data to learn a sensor-agnostic geometric representation of the world. We demonstrate multimodal future predictions and show that our spatial representation improves the prediction quality of both camera images and lidar point clouds.
- Abstract(参考訳): 自律運転のための教師なしの世界モデルを学ぶことは、今日のシステムの推論能力を大幅に改善する可能性がある。
しかし、ほとんどの研究は世界の物理的特性を無視し、センサーデータのみに焦点を当てている。
本稿では,この課題に対処するため,空間的VOxel表現を持つMUVOを提案する。
我々は、生のカメラとライダーデータを用いて、世界のセンサに依存しない幾何学的表現を学習する。
我々は,マルチモーダルな将来予測を実証し,空間表現がカメラ画像とライダー点雲の予測品質を改善することを示す。
関連論文リスト
- Exploring the Interplay Between Video Generation and World Models in Autonomous Driving: A Survey [61.39993881402787]
世界モデルとビデオ生成は、自動運転の領域において重要な技術である。
本稿では,この2つの技術の関係について検討する。
映像生成モデルと世界モデルとの相互作用を分析することにより,重要な課題と今後の研究方向性を明らかにする。
論文 参考訳(メタデータ) (2024-11-05T08:58:35Z) - DrivingDojo Dataset: Advancing Interactive and Knowledge-Enriched Driving World Model [65.43473733967038]
私たちは、複雑な駆動ダイナミクスを備えたインタラクティブな世界モデルのトレーニング用に作られた最初のデータセットであるDrivingDojoを紹介します。
私たちのデータセットには、完全な運転操作、多様なマルチエージェント・インタープレイ、豊富なオープンワールド運転知識を備えたビデオクリップが含まれています。
論文 参考訳(メタデータ) (2024-10-14T17:19:23Z) - Driving in the Occupancy World: Vision-Centric 4D Occupancy Forecasting and Planning via World Models for Autonomous Driving [15.100104512786107]
Drive-OccWorldは、自動運転のエンドツーエンド計画にビジョン中心の4D予測ワールドモデルを適用する。
本研究では, 速度, 操舵角度, 軌道, 指令などの柔軟な動作条件を世界モデルに注入することを提案する。
nuScenesデータセットの実験により,本手法は可塑性かつ制御可能な4D占有率を生成可能であることが示された。
論文 参考訳(メタデータ) (2024-08-26T11:53:09Z) - Probing Multimodal LLMs as World Models for Driving [72.18727651074563]
自律運転におけるMLLM(Multimodal Large Language Models)の適用について検討する。
GPT-4oのようなモデルの開発は進んでいるが、複雑な運転環境における性能は未解明のままである。
論文 参考訳(メタデータ) (2024-05-09T17:52:42Z) - Is Sora a World Simulator? A Comprehensive Survey on General World Models and Beyond [101.15395503285804]
一般世界モデルは、人工知能(AGI)の実現への決定的な道のりを表現している
本調査では,世界モデルの最新動向を包括的に調査する。
我々は,世界モデルの課題と限界について検討し,今後の方向性について考察する。
論文 参考訳(メタデータ) (2024-05-06T14:37:07Z) - Driving into the Future: Multiview Visual Forecasting and Planning with
World Model for Autonomous Driving [56.381918362410175]
Drive-WMは、既存のエンド・ツー・エンドの計画モデルと互換性のある世界初のドライビングワールドモデルである。
ドライビングシーンで高忠実度マルチビュー映像を生成する。
論文 参考訳(メタデータ) (2023-11-29T18:59:47Z) - Copilot4D: Learning Unsupervised World Models for Autonomous Driving via Discrete Diffusion [36.321494200830244]
Copilot4Dは、まずVQVAEでセンサ観測をトークン化し、次に離散拡散によって未来を予測する新しい世界モデリング手法である。
本研究は,ロボット工学におけるGPTのような非教師なし学習のパワーを,トークン化エージェント体験における離散拡散によって解き放つことを示す。
論文 参考訳(メタデータ) (2023-11-02T06:21:56Z) - Neural World Models for Computer Vision [2.741266294612776]
深層ニューラルネットワークによってパラメータ化された世界モデルと政策をトレーニングするためのフレームワークを提案する。
我々は、幾何学、意味論、動きといった重要なコンピュータビジョンの概念を活用して、複雑な都市運転シーンに世界モデルを拡張する。
都会の運転環境における静的シーン, 動的シーン, エゴビヘイビアを共同で予測できる。
論文 参考訳(メタデータ) (2023-06-15T14:58:21Z) - VISTA 2.0: An Open, Data-driven Simulator for Multimodal Sensing and
Policy Learning for Autonomous Vehicles [131.2240621036954]
VISTAはオープンソースのデータ駆動シミュレータで、複数のタイプのセンサーを自律走行車に組み込む。
高忠実で実世界のデータセットを使用して、VISTAはRGBカメラ、3D LiDAR、イベントベースのカメラを表現し、シミュレートする。
センサタイプ毎に知覚制御ポリシーをトレーニングし,テストする能力を示し,フルスケールの自律走行車への展開を通じて,このアプローチのパワーを示す。
論文 参考訳(メタデータ) (2021-11-23T18:58:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。