論文の概要: GeoDrive: 3D Geometry-Informed Driving World Model with Precise Action Control
- arxiv url: http://arxiv.org/abs/2505.22421v1
- Date: Wed, 28 May 2025 14:46:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.659733
- Title: GeoDrive: 3D Geometry-Informed Driving World Model with Precise Action Control
- Title(参考訳): GeoDrive:精密動作制御による3次元形状インフォームドドライビングワールドモデル
- Authors: Anthony Chen, Wenzhao Zheng, Yida Wang, Xueyang Zhang, Kun Zhan, Peng Jia, Kurt Keutzer, Shangbang Zhang,
- Abstract要約: 実世界モデルにロバストな3次元形状条件を明示的に統合したGeoDriveを紹介する。
車両の位置を編集することでレンダリングを強化するため,トレーニング中の動的編集モジュールを提案する。
動作精度と空間認識の両面で既存のモデルよりも優れていた。
- 参考スコア(独自算出の注目度): 37.75882065312683
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in world models have revolutionized dynamic environment simulation, allowing systems to foresee future states and assess potential actions. In autonomous driving, these capabilities help vehicles anticipate the behavior of other road users, perform risk-aware planning, accelerate training in simulation, and adapt to novel scenarios, thereby enhancing safety and reliability. Current approaches exhibit deficiencies in maintaining robust 3D geometric consistency or accumulating artifacts during occlusion handling, both critical for reliable safety assessment in autonomous navigation tasks. To address this, we introduce GeoDrive, which explicitly integrates robust 3D geometry conditions into driving world models to enhance spatial understanding and action controllability. Specifically, we first extract a 3D representation from the input frame and then obtain its 2D rendering based on the user-specified ego-car trajectory. To enable dynamic modeling, we propose a dynamic editing module during training to enhance the renderings by editing the positions of the vehicles. Extensive experiments demonstrate that our method significantly outperforms existing models in both action accuracy and 3D spatial awareness, leading to more realistic, adaptable, and reliable scene modeling for safer autonomous driving. Additionally, our model can generalize to novel trajectories and offers interactive scene editing capabilities, such as object editing and object trajectory control.
- Abstract(参考訳): 世界モデルの最近の進歩は動的環境シミュレーションに革命をもたらし、システムは将来の状態を予見し、潜在的な行動を評価することができる。
自動運転車では、車両は他の道路利用者の行動を予測し、リスク対応計画を実行し、シミュレーションのトレーニングを加速し、新しいシナリオに適応し、安全と信頼性を向上させる。
現在のアプローチでは、自律的なナビゲーションタスクにおける信頼性の高い安全性評価において、ロバストな3次元幾何学的整合性を維持することや、閉塞処理中にアーティファクトを蓄積することの欠陥が示されています。
そこで本研究では,ロバストな3次元幾何条件を実世界モデルに明示的に統合し,空間的理解と行動制御性を向上するGeoDriveを紹介する。
具体的には,まず入力フレームから3D表現を抽出し,その2Dレンダリングをユーザが指定したエゴカー軌道に基づいて取得する。
動的モデリングを実現するため,車両の位置を編集してレンダリングを強化するため,トレーニング中の動的編集モジュールを提案する。
大規模な実験により,提案手法は行動精度と空間認識の両面で既存モデルより有意に優れており,より現実的で適応性があり,信頼性の高いシーンモデリングによる安全な自動運転の実現が期待できる。
さらに,本モデルでは,オブジェクト編集やオブジェクト軌跡制御などのインタラクティブなシーン編集機能を備えた新しいトラジェクトリに一般化することができる。
関連論文リスト
- CoGen: 3D Consistent Video Generation via Adaptive Conditioning for Autonomous Driving [25.156989992025625]
本研究では,空間適応型生成フレームワークCoGenを導入し,高3次元一貫性で制御可能なマルチビュービデオを実現する。
粗い2次元条件を微細な3次元表現に置き換えることで,生成した映像の空間的整合性を大幅に向上させる。
以上の結果から, この手法は, 自律運転のための信頼性の高い映像生成ソリューションとして, 幾何学的忠実度と視覚的リアリズムの保存に優れることが示された。
論文 参考訳(メタデータ) (2025-03-28T08:27:05Z) - Physical Informed Driving World Model [47.04423342994622]
DrivePhysicaは、本質的な物理原理に準拠したリアルなドライビングビデオを生成するために設計された革新的なモデルだ。
我々は,Nuscenesデータセット上での3.96 FIDと38.06 FVDの駆動ビデオ生成品質と下流認識タスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-12-11T14:29:35Z) - Learning Terrain-Aware Kinodynamic Model for Autonomous Off-Road Rally
Driving With Model Predictive Path Integral Control [4.23755398158039]
本稿では,固有受容情報と外部受容情報の両方に基づいて,地形を考慮したキノダイナミクスモデルを学習する手法を提案する。
提案モデルでは、6自由度運動の信頼性予測が生成され、接触相互作用を推定することもできる。
シミュレーションされたオフロードトラック実験により提案手法の有効性を実証し,提案手法がベースラインより優れていることを示す。
論文 参考訳(メタデータ) (2023-05-01T06:09:49Z) - TrafficBots: Towards World Models for Autonomous Driving Simulation and
Motion Prediction [149.5716746789134]
我々は,データ駆動型交通シミュレーションを世界モデルとして定式化できることを示した。
動作予測とエンドツーエンドの運転に基づくマルチエージェントポリシーであるTrafficBotsを紹介する。
オープンモーションデータセットの実験は、TrafficBotsが現実的なマルチエージェント動作をシミュレートできることを示している。
論文 参考訳(メタデータ) (2023-03-07T18:28:41Z) - Multi-Modal Fusion Transformer for End-to-End Autonomous Driving [59.60483620730437]
画像表現とLiDAR表現を注目で統合する,新しいマルチモードフュージョントランスフォーマであるTransFuserを提案する。
本手法は, 衝突を76%低減しつつ, 最先端駆動性能を実現する。
論文 参考訳(メタデータ) (2021-04-19T11:48:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。