論文の概要: HERMES: A Unified Self-Driving World Model for Simultaneous 3D Scene Understanding and Generation
- arxiv url: http://arxiv.org/abs/2501.14729v1
- Date: Fri, 24 Jan 2025 18:59:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-27 14:56:44.677841
- Title: HERMES: A Unified Self-Driving World Model for Simultaneous 3D Scene Understanding and Generation
- Title(参考訳): HERMES:同時3次元シーン理解・生成のための統合型自動運転世界モデル
- Authors: Xin Zhou, Dingkang Liang, Sifan Tu, Xiwu Chen, Yikang Ding, Dingyuan Zhang, Feiyang Tan, Hengshuang Zhao, Xiang Bai,
- Abstract要約: 我々はHERMESという統合運転世界モデルを提案する。
シナリオを駆動する統合フレームワークを通じて、3Dシーン理解と将来のシーン進化(世代)をシームレスに統合する。
HERMESは最先端のパフォーマンスを実現し、生成エラーを32.4%削減し、CIDErなどの理解基準を8.0%改善した。
- 参考スコア(独自算出の注目度): 59.675030933810106
- License:
- Abstract: Driving World Models (DWMs) have become essential for autonomous driving by enabling future scene prediction. However, existing DWMs are limited to scene generation and fail to incorporate scene understanding, which involves interpreting and reasoning about the driving environment. In this paper, we present a unified Driving World Model named HERMES. We seamlessly integrate 3D scene understanding and future scene evolution (generation) through a unified framework in driving scenarios. Specifically, HERMES leverages a Bird's-Eye View (BEV) representation to consolidate multi-view spatial information while preserving geometric relationships and interactions. We also introduce world queries, which incorporate world knowledge into BEV features via causal attention in the Large Language Model (LLM), enabling contextual enrichment for understanding and generation tasks. We conduct comprehensive studies on nuScenes and OmniDrive-nuScenes datasets to validate the effectiveness of our method. HERMES achieves state-of-the-art performance, reducing generation error by 32.4% and improving understanding metrics such as CIDEr by 8.0%. The model and code will be publicly released at https://github.com/LMD0311/HERMES.
- Abstract(参考訳): ドライビング・ワールド・モデル(DWM)は、将来のシーン予測を可能にすることで、自動運転に欠かせないものとなっている。
しかし、既存のDWMはシーン生成に限られており、運転環境の解釈と推論を含むシーン理解を組み込むことができない。
本稿では,HERMESという統合運転世界モデルを提案する。
シナリオを駆動する統合フレームワークを通じて、3Dシーン理解と将来のシーン進化(世代)をシームレスに統合する。
具体的には、HERMESはBird's-Eye View(BEV)表現を利用して、幾何学的関係と相互作用を保ちながら、多視点空間情報を統合する。
また,Large Language Model (LLM)における因果的注意を通じて,世界知識をBEV機能に組み込んだワールドクエリを導入し,タスクの理解と生成のためのコンテキスト拡張を実現する。
提案手法の有効性を検証するため, nuScenes と OmniDrive-nuScenes データセットの総合的研究を行った。
HERMESは最先端のパフォーマンスを実現し、生成エラーを32.4%削減し、CIDErなどの理解基準を8.0%改善した。
モデルとコードはhttps://github.com/LMD0311/HERMESで公開される。
関連論文リスト
- Exploring the Interplay Between Video Generation and World Models in Autonomous Driving: A Survey [61.39993881402787]
世界モデルとビデオ生成は、自動運転の領域において重要な技術である。
本稿では,この2つの技術の関係について検討する。
映像生成モデルと世界モデルとの相互作用を分析することにより,重要な課題と今後の研究方向性を明らかにする。
論文 参考訳(メタデータ) (2024-11-05T08:58:35Z) - DrivingDojo Dataset: Advancing Interactive and Knowledge-Enriched Driving World Model [65.43473733967038]
私たちは、複雑な駆動ダイナミクスを備えたインタラクティブな世界モデルのトレーニング用に作られた最初のデータセットであるDrivingDojoを紹介します。
私たちのデータセットには、完全な運転操作、多様なマルチエージェント・インタープレイ、豊富なオープンワールド運転知識を備えたビデオクリップが含まれています。
論文 参考訳(メタデータ) (2024-10-14T17:19:23Z) - Driving in the Occupancy World: Vision-Centric 4D Occupancy Forecasting and Planning via World Models for Autonomous Driving [15.100104512786107]
Drive-OccWorldは、自動運転のエンドツーエンド計画にビジョン中心の4D予測ワールドモデルを適用する。
制御可能な生成を可能にするために,速度,操舵角度,軌道,指令などの柔軟な動作条件を世界モデルに注入することを提案する。
本手法は,多目的かつ制御可能な4D占有率を創出し,次世代の運転とエンド・ツー・エンド・プランニングの進歩への道を開く。
論文 参考訳(メタデータ) (2024-08-26T11:53:09Z) - DriveWorld: 4D Pre-trained Scene Understanding via World Models for Autonomous Driving [67.46481099962088]
現在の視覚中心の事前訓練は、通常、2Dまたは3Dのプリテキストタスクに依存し、自律運転の時間的特性を4Dシーン理解タスクとして見落としている。
我々は,マルチカメラ駆動ビデオからテンポラリな方法で事前学習が可能なEmphcentricDriveWorldを紹介した。
DriveWorldは、さまざまな自動運転タスクに関する有望な結果を提供する。
論文 参考訳(メタデータ) (2024-05-07T15:14:20Z) - Embodied Understanding of Driving Scenarios [44.21311841582762]
身体的な場面理解は、自律的なエージェントがオープンな運転シナリオを理解し、解釈し、反応するための基盤となる。
本稿では,広い空間空間と時間空間を持つ運転シーンに対するエージェントの理解に適した包括的枠組みであるEmbodied Language Model (ELM)を紹介する。
ELMは、空間的ローカライゼーション能力の強いエージェントを実現するために、空間認識事前トレーニングを組み込んでいる。
論文 参考訳(メタデータ) (2024-03-07T15:39:18Z) - OccWorld: Learning a 3D Occupancy World Model for Autonomous Driving [67.49461023261536]
我々は3D Occupancyの世界で世界モデルOccWorldを学ぶための新しいフレームワークを学ぶ。
我々は同時にエゴカーの動きと周囲のシーンの進化を予測する。
OccWorldはインスタンスとマップを使わずに競合する計画結果を生成する。
論文 参考訳(メタデータ) (2023-11-27T17:59:41Z) - DriveDreamer: Towards Real-world-driven World Models for Autonomous
Driving [76.24483706445298]
実世界の運転シナリオから完全に派生した世界モデルであるDriveDreamerを紹介する。
最初の段階では、DriveDreamerは構造化されたトラフィックの制約を深く理解し、次の段階では将来の状態を予測できる。
DriveDreamerは、現実的で合理的な運転ポリシーの生成を可能にし、インタラクションと実用的なアプリケーションのための道を開く。
論文 参考訳(メタデータ) (2023-09-18T13:58:42Z) - Neural World Models for Computer Vision [2.741266294612776]
深層ニューラルネットワークによってパラメータ化された世界モデルと政策をトレーニングするためのフレームワークを提案する。
我々は、幾何学、意味論、動きといった重要なコンピュータビジョンの概念を活用して、複雑な都市運転シーンに世界モデルを拡張する。
都会の運転環境における静的シーン, 動的シーン, エゴビヘイビアを共同で予測できる。
論文 参考訳(メタデータ) (2023-06-15T14:58:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。