論文の概要: UniWorld: Autonomous Driving Pre-training via World Models
- arxiv url: http://arxiv.org/abs/2308.07234v1
- Date: Mon, 14 Aug 2023 16:17:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 12:39:34.404347
- Title: UniWorld: Autonomous Driving Pre-training via World Models
- Title(参考訳): UniWorld:世界モデルによる自動運転事前トレーニング
- Authors: Chen Min, Dawei Zhao, Liang Xiao, Yiming Nie, Bin Dai
- Abstract要約: このロボットは、UniWorldと呼ばれる空間的時間的世界モデルを用いて、周囲を知覚し、他の参加者の将来の行動を予測する。
ユニワールドは世界の国家に関する行方不明情報を推定し、世界の有望な将来の国家を予測することができる。
UniWorldの事前トレーニングプロセスはラベルなしで、大量の画像-LiDARペアを使用して基礎モデルを構築することができる。
- 参考スコア(独自算出の注目度): 12.34628913148789
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we draw inspiration from Alberto Elfes' pioneering work in
1989, where he introduced the concept of the occupancy grid as World Models for
robots. We imbue the robot with a spatial-temporal world model, termed
UniWorld, to perceive its surroundings and predict the future behavior of other
participants. UniWorld involves initially predicting 4D geometric occupancy as
the World Models for foundational stage and subsequently fine-tuning on
downstream tasks. UniWorld can estimate missing information concerning the
world state and predict plausible future states of the world. Besides,
UniWorld's pre-training process is label-free, enabling the utilization of
massive amounts of image-LiDAR pairs to build a Foundational Model.The proposed
unified pre-training framework demonstrates promising results in key tasks such
as motion prediction, multi-camera 3D object detection, and surrounding
semantic scene completion. When compared to monocular pre-training methods on
the nuScenes dataset, UniWorld shows a significant improvement of about 1.5% in
IoU for motion prediction, 2.0% in mAP and 2.0% in NDS for multi-camera 3D
object detection, as well as a 3% increase in mIoU for surrounding semantic
scene completion. By adopting our unified pre-training method, a 25% reduction
in 3D training annotation costs can be achieved, offering significant practical
value for the implementation of real-world autonomous driving. Codes are
publicly available at https://github.com/chaytonmin/UniWorld.
- Abstract(参考訳): 本稿では,1989年にアルベルト・エルフェスの先駆的研究から着想を得て,ロボットの世界モデルとして占有グリッドの概念を紹介した。
このロボットは、UniWorldと呼ばれる空間的時間的世界モデルを用いて周囲を知覚し、他の参加者の将来の行動を予測する。
UniWorldは4次元幾何学的占有率を基本段階のワールドモデルとして予測し、その後下流のタスクを微調整する。
ユニワールドは、世界状態に関する行方不明情報を推定し、世界の有望な将来の状態を予測することができる。
さらに、UniWorldの事前学習プロセスはラベルフリーであり、大量の画像-LiDARペアを使って基礎モデルを構築することが可能であり、この統合事前学習フレームワークは、モーション予測、マルチカメラ3Dオブジェクト検出、周囲のセマンティックシーンの完了といった重要なタスクにおける有望な結果を示す。
nuScenesデータセットの単分子事前学習法と比較して、UniWorldは動き予測におけるIoUの約1.5%、マルチカメラ3Dオブジェクト検出におけるmAPの2.0%、NDSの約2.0%、セマンティックシーン補完のためのmIoUの3%の大幅な改善を示した。
統合事前学習手法を採用することにより、3Dトレーニングアノテーションのコストを25%削減することが可能となり、現実の自律運転の実現に重要な実用的価値が提供される。
コードはhttps://github.com/chaytonmin/uniworldで公開されている。
関連論文リスト
- Multi-Transmotion: Pre-trained Model for Human Motion Prediction [68.87010221355223]
マルチトランスモーション(Multi-Transmotion)は、モダリティ事前トレーニング用に設計された革新的なトランスフォーマーベースのモデルである。
提案手法は,下流タスクにおける各種データセット間の競合性能を示す。
論文 参考訳(メタデータ) (2024-11-04T23:15:21Z) - DOME: Taming Diffusion Model into High-Fidelity Controllable Occupancy World Model [14.996395953240699]
DOMEは拡散に基づく世界モデルであり、過去の占有観察に基づいて将来の占有枠を予測する。
この世界のモデルが環境の進化を捉える能力は、自動運転の計画に不可欠である。
論文 参考訳(メタデータ) (2024-10-14T12:24:32Z) - Driving in the Occupancy World: Vision-Centric 4D Occupancy Forecasting and Planning via World Models for Autonomous Driving [15.100104512786107]
Drive-OccWorldは、自動運転のエンドツーエンド計画にビジョン中心の4D予測ワールドモデルを適用する。
本研究では, 速度, 操舵角度, 軌道, 指令などの柔軟な動作条件を世界モデルに注入することを提案する。
nuScenesデータセットの実験により,本手法は可塑性かつ制御可能な4D占有率を生成可能であることが示された。
論文 参考訳(メタデータ) (2024-08-26T11:53:09Z) - DriveWorld: 4D Pre-trained Scene Understanding via World Models for Autonomous Driving [67.46481099962088]
現在の視覚中心の事前訓練は、通常、2Dまたは3Dのプリテキストタスクに依存し、自律運転の時間的特性を4Dシーン理解タスクとして見落としている。
我々は,マルチカメラ駆動ビデオからテンポラリな方法で事前学習が可能なEmphcentricDriveWorldを紹介した。
DriveWorldは、さまざまな自動運転タスクに関する有望な結果を提供する。
論文 参考訳(メタデータ) (2024-05-07T15:14:20Z) - 3D-VLA: A 3D Vision-Language-Action Generative World Model [68.0388311799959]
最近の視覚言語アクション(VLA)モデルは2D入力に依存しており、3D物理世界の広い領域との統合は欠如している。
本稿では,3次元知覚,推論,行動をシームレスにリンクする新しい基礎モデルのファウンデーションモデルを導入することにより,3D-VLAを提案する。
本実験により,3D-VLAは実環境における推論,マルチモーダル生成,計画能力を大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-03-14T17:58:41Z) - Copilot4D: Learning Unsupervised World Models for Autonomous Driving via Discrete Diffusion [36.321494200830244]
Copilot4Dは、まずVQVAEでセンサ観測をトークン化し、次に離散拡散によって未来を予測する新しい世界モデリング手法である。
本研究は,ロボット工学におけるGPTのような非教師なし学習のパワーを,トークン化エージェント体験における離散拡散によって解き放つことを示す。
論文 参考訳(メタデータ) (2023-11-02T06:21:56Z) - UniScene: Multi-Camera Unified Pre-training via 3D Scene Reconstruction for Autonomous Driving [11.507979392707448]
我々は、UniSceneと呼ばれる、最初のマルチカメラ統合事前学習フレームワークを提案する。
我々は3次元シーンの一般的な表現としてOccupancyを使用し、そのモデルが周囲の世界の幾何学的先行を把握できるようにする。
UniSceneは、マルチカメラ3Dオブジェクト検出において、mAPが約2.0%、NDSが約2.0%、セマンティックシーン完了時のmIoUが3%向上した。
論文 参考訳(メタデータ) (2023-05-30T08:23:06Z) - Predictive World Models from Real-World Partial Observations [66.80340484148931]
本研究では,現実の道路環境に対する確率論的予測世界モデル学習のためのフレームワークを提案する。
従来の手法では、学習のための基礎的真理として完全状態を必要とするが、HVAEが部分的に観察された状態のみから完全状態を予測することを学べる新しい逐次訓練法を提案する。
論文 参考訳(メタデータ) (2023-01-12T02:07:26Z) - T3VIP: Transformation-based 3D Video Prediction [49.178585201673364]
本稿では,シーンを対象部品に分解することで3次元動きを明示的にモデル化する3次元映像予測手法を提案する。
我々のモデルは、完全に教師なしであり、現実世界の性質を捉え、画像と点のクラウド領域における観察の手がかりがその学習信号を構成する。
我々の知る限り、我々のモデルは、静止カメラの未来をRGB-Dビデオで予測する最初の生成モデルである。
論文 参考訳(メタデータ) (2022-09-19T15:01:09Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。