論文の概要: OccWorld: Learning a 3D Occupancy World Model for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2311.16038v1
- Date: Mon, 27 Nov 2023 17:59:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 14:05:12.856821
- Title: OccWorld: Learning a 3D Occupancy World Model for Autonomous Driving
- Title(参考訳): OccWorld: 自動運転のための3D作業世界モデルを学ぶ
- Authors: Wenzhao Zheng, Weiliang Chen, Yuanhui Huang, Borui Zhang, Yueqi Duan,
Jiwen Lu
- Abstract要約: 我々は3D Occupancyの世界で世界モデルOccWorldを学ぶための新しいフレームワークを学ぶ。
我々は同時にエゴカーの動きと周囲のシーンの進化を予測する。
OccWorldはインスタンスとマップを使わずに競合する計画結果を生成する。
- 参考スコア(独自算出の注目度): 67.49461023261536
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding how the 3D scene evolves is vital for making decisions in
autonomous driving. Most existing methods achieve this by predicting the
movements of object boxes, which cannot capture more fine-grained scene
information. In this paper, we explore a new framework of learning a world
model, OccWorld, in the 3D Occupancy space to simultaneously predict the
movement of the ego car and the evolution of the surrounding scenes. We propose
to learn a world model based on 3D occupancy rather than 3D bounding boxes and
segmentation maps for three reasons: 1) expressiveness. 3D occupancy can
describe the more fine-grained 3D structure of the scene; 2) efficiency. 3D
occupancy is more economical to obtain (e.g., from sparse LiDAR points). 3)
versatility. 3D occupancy can adapt to both vision and LiDAR. To facilitate the
modeling of the world evolution, we learn a reconstruction-based scene
tokenizer on the 3D occupancy to obtain discrete scene tokens to describe the
surrounding scenes. We then adopt a GPT-like spatial-temporal generative
transformer to generate subsequent scene and ego tokens to decode the future
occupancy and ego trajectory. Extensive experiments on the widely used nuScenes
benchmark demonstrate the ability of OccWorld to effectively model the
evolution of the driving scenes. OccWorld also produces competitive planning
results without using instance and map supervision. Code:
https://github.com/wzzheng/OccWorld.
- Abstract(参考訳): 3Dシーンの進化を理解することは、自動運転の意思決定に不可欠である。
既存の方法の多くは、よりきめ細かいシーン情報をキャプチャできないオブジェクトボックスの動きを予測することでこれを達成する。
本稿では,エゴカーの移動と周囲のシーンの進化を同時に予測するために,世界モデルOccWorldを3次元空間で学習する新たな枠組みを探求する。
3dバウンディングボックスやセグメンテーションマップではなく、3d占有率に基づく世界モデルを学ぶことを3つの理由から提案する。
1)表現性。
3Dの占有は、シーンのよりきめ細かい3D構造を記述することができる。
2)効率性。
3D占有率はより経済的である(例えば、疎LiDAR点から)。
3)汎用性。
3D占有力は視覚とLiDARの両方に適応できる。
世界発展のモデル化を容易にするために,3次元空間における再構成型シーントークン化装置を学習し,周辺シーンを記述するための個別のシーントークンを得る。
次に、gptライクな時空間生成トランスを用い、後続のシーンとegoトークンを生成し、将来の占有とego軌道をデコードする。
広く使われているnuScenesベンチマークに関する大規模な実験は、運転シーンの進化を効果的にモデル化するOccWorldの能力を実証している。
OccWorldはインスタンスとマップの監視を使わずに、競合する計画結果も生成する。
コード: https://github.com/wzzheng/occworld。
関連論文リスト
- OccSora: 4D Occupancy Generation Models as World Simulators for Autonomous Driving [62.54220021308464]
自律運転のための3次元世界開発をシミュレートするために,拡散型4次元占有率生成モデルOccSoraを提案する。
OccSoraは、正確な3Dレイアウトと時間的一貫性を備えた16sビデオを生成し、運転シーンの空間的および時間的分布を理解する能力を示す。
論文 参考訳(メタデータ) (2024-05-30T17:59:42Z) - SceneVerse: Scaling 3D Vision-Language Learning for Grounded Scene Understanding [37.47195477043883]
3D視覚言語グラウンドリングは、言語と3D物理環境の整合性に焦点を当て、エンボディエージェントの開発の基盤となっている。
約68Kの屋内シーンを含む最初の100万スケールの3Dビジョン言語データセットであるSceneVerseを紹介した。
このスケーリングにより、3次元視覚言語学習のための一貫した事前学習フレームワーク、Grounded Pre-training for Scenes (GPS) が実現可能であることを実証する。
論文 参考訳(メタデータ) (2024-01-17T17:04:35Z) - SelfOcc: Self-Supervised Vision-Based 3D Occupancy Prediction [77.15924044466976]
本稿では,ビデオシーケンスのみを用いて,自己指導型3D習熟学習手法を提案する。
まず、画像を3D空間(例えば鳥の目視)に変換し、シーンの3D表現を得る。
そして、前と将来のフレームの2D画像を自己超越信号として描画し、3D表現を学習する。
論文 参考訳(メタデータ) (2023-11-21T17:59:14Z) - SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving [98.74706005223685]
3Dシーン理解は、視覚に基づく自動運転において重要な役割を果たす。
マルチカメラ画像を用いたSurroundOcc法を提案する。
論文 参考訳(メタデータ) (2023-03-16T17:59:08Z) - SceneDreamer: Unbounded 3D Scene Generation from 2D Image Collections [49.802462165826554]
SceneDreamerは,非有界な3次元シーンの無条件生成モデルである。
フレームワークは,3Dアノテーションを使わずに,Wild 2Dイメージコレクションのみから学習する。
論文 参考訳(メタデータ) (2023-02-02T18:59:16Z) - 3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文 参考訳(メタデータ) (2021-07-08T17:49:37Z) - Curiosity-driven 3D Scene Structure from Single-image Self-supervision [22.527696847086574]
これまでの研究は、孤立した3Dオブジェクトを2Dのみの自己スーパービジョンから学習することを実証してきた。
ここでは、複数のオブジェクトで構成された3Dシーン全体(位置、向き、型など)に拡張することにしました。
得られたシステムは、異なる仮想または実画像の2D画像を完全な3Dシーンに変換し、それらのシーンの2D画像からのみ学習する。
論文 参考訳(メタデータ) (2020-12-02T14:17:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。