Fugu-MT 論文翻訳(概要): GeoDrive: 3D Geometry-Informed Driving World Model with Precise Action Control

論文の概要: GeoDrive: 3D Geometry-Informed Driving World Model with Precise Action Control

arxiv url: http://arxiv.org/abs/2505.22421v1
Date: Wed, 28 May 2025 14:46:51 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-29 17:35:50.659733
Title: GeoDrive: 3D Geometry-Informed Driving World Model with Precise Action Control
Title（参考訳）: GeoDrive:精密動作制御による3次元形状インフォームドドライビングワールドモデル
Authors: Anthony Chen, Wenzhao Zheng, Yida Wang, Xueyang Zhang, Kun Zhan, Peng Jia, Kurt Keutzer, Shangbang Zhang,
Abstract要約: 実世界モデルにロバストな3次元形状条件を明示的に統合したGeoDriveを紹介する。車両の位置を編集することでレンダリングを強化するため,トレーニング中の動的編集モジュールを提案する。動作精度と空間認識の両面で既存のモデルよりも優れていた。
参考スコア（独自算出の注目度）: 37.75882065312683
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advancements in world models have revolutionized dynamic environment simulation, allowing systems to foresee future states and assess potential actions. In autonomous driving, these capabilities help vehicles anticipate the behavior of other road users, perform risk-aware planning, accelerate training in simulation, and adapt to novel scenarios, thereby enhancing safety and reliability. Current approaches exhibit deficiencies in maintaining robust 3D geometric consistency or accumulating artifacts during occlusion handling, both critical for reliable safety assessment in autonomous navigation tasks. To address this, we introduce GeoDrive, which explicitly integrates robust 3D geometry conditions into driving world models to enhance spatial understanding and action controllability. Specifically, we first extract a 3D representation from the input frame and then obtain its 2D rendering based on the user-specified ego-car trajectory. To enable dynamic modeling, we propose a dynamic editing module during training to enhance the renderings by editing the positions of the vehicles. Extensive experiments demonstrate that our method significantly outperforms existing models in both action accuracy and 3D spatial awareness, leading to more realistic, adaptable, and reliable scene modeling for safer autonomous driving. Additionally, our model can generalize to novel trajectories and offers interactive scene editing capabilities, such as object editing and object trajectory control.
Abstract（参考訳）: 世界モデルの最近の進歩は動的環境シミュレーションに革命をもたらし、システムは将来の状態を予見し、潜在的な行動を評価することができる。自動運転車では、車両は他の道路利用者の行動を予測し、リスク対応計画を実行し、シミュレーションのトレーニングを加速し、新しいシナリオに適応し、安全と信頼性を向上させる。現在のアプローチでは、自律的なナビゲーションタスクにおける信頼性の高い安全性評価において、ロバストな3次元幾何学的整合性を維持することや、閉塞処理中にアーティファクトを蓄積することの欠陥が示されています。そこで本研究では,ロバストな3次元幾何条件を実世界モデルに明示的に統合し,空間的理解と行動制御性を向上するGeoDriveを紹介する。具体的には,まず入力フレームから3D表現を抽出し,その2Dレンダリングをユーザが指定したエゴカー軌道に基づいて取得する。動的モデリングを実現するため,車両の位置を編集してレンダリングを強化するため,トレーニング中の動的編集モジュールを提案する。大規模な実験により,提案手法は行動精度と空間認識の両面で既存モデルより有意に優れており,より現実的で適応性があり,信頼性の高いシーンモデリングによる安全な自動運転の実現が期待できる。さらに,本モデルでは,オブジェクト編集やオブジェクト軌跡制御などのインタラクティブなシーン編集機能を備えた新しいトラジェクトリに一般化することができる。

関連論文リスト

AD-GS: Object-Aware B-Spline Gaussian Splatting for Self-Supervised Autonomous Driving [29.420887070252274]
我々は,単一のログから駆動シーンの高品質な自由視点レンダリングを実現するための,新しい自己教師型フレームワークAD-GSを紹介する。中心となるのは、局所性を考慮したB-スプライン曲線と大域的な三角関数を統合する新しい学習可能な運動モデルである。我々のモデルは、可視性推論と物理的に厳密な正規化を取り入れ、堅牢性を高めている。
論文参考訳（メタデータ） (2025-07-16T11:10:57Z)
DriveX: Omni Scene Modeling for Learning Generalizable World Knowledge in Autonomous Driving [20.197094443215963]
本稿では、動画から一般的なシーンのダイナミクスと全体像を学習する自己教師型世界モデルDriveXを提案する。 DriveXは,マルチモーダル監視3Dポイントクラウド予測,2Dセマンティック表現,イメージ生成を統合するモジュールであるOmni Scene Modeling (OSM)を導入した。下流適応のために我々は,DriveXの予測から特徴を動的に集約し,タスク固有の推論を強化する統一パラダイムであるFuture Spatial Attention (FSA)を設計する。
論文参考訳（メタデータ） (2025-05-25T17:27:59Z)
CoGen: 3D Consistent Video Generation via Adaptive Conditioning for Autonomous Driving [25.156989992025625]
本研究では,空間適応型生成フレームワークCoGenを導入し,高3次元一貫性で制御可能なマルチビュービデオを実現する。粗い2次元条件を微細な3次元表現に置き換えることで,生成した映像の空間的整合性を大幅に向上させる。以上の結果から, この手法は, 自律運転のための信頼性の高い映像生成ソリューションとして, 幾何学的忠実度と視覚的リアリズムの保存に優れることが示された。
論文参考訳（メタデータ） (2025-03-28T08:27:05Z)
Physical Informed Driving World Model [47.04423342994622]
DrivePhysicaは、本質的な物理原理に準拠したリアルなドライビングビデオを生成するために設計された革新的なモデルだ。我々は,Nuscenesデータセット上での3.96 FIDと38.06 FVDの駆動ビデオ生成品質と下流認識タスクにおける最先端性能を実現する。
論文参考訳（メタデータ） (2024-12-11T14:29:35Z)
Stag-1: Towards Realistic 4D Driving Simulation with Video Generation Model [83.31688383891871]
本稿では,現実世界のシーンを再現するために,DrivinG(Stag-1)モデルのための空間-テンポラル・シミュレートを提案する。 Stag-1は、自動運転車のサラウンドビューデータを使用して、連続した4Dポイントのクラウドシーンを構築する。空間的時間的関係を分離し、コヒーレントな運転ビデオを生成する。
論文参考訳（メタデータ） (2024-12-06T18:59:56Z)
Learning Terrain-Aware Kinodynamic Model for Autonomous Off-Road Rally Driving With Model Predictive Path Integral Control [4.23755398158039]
本稿では,固有受容情報と外部受容情報の両方に基づいて,地形を考慮したキノダイナミクスモデルを学習する手法を提案する。提案モデルでは、6自由度運動の信頼性予測が生成され、接触相互作用を推定することもできる。シミュレーションされたオフロードトラック実験により提案手法の有効性を実証し,提案手法がベースラインより優れていることを示す。
論文参考訳（メタデータ） (2023-05-01T06:09:49Z)
3D Data Augmentation for Driving Scenes on Camera [50.41413053812315]
本稿では,Drive-3DAugと呼ばれる3次元データ拡張手法を提案する。まずNeural Radiance Field(NeRF)を用いて,背景および前景の3次元モデルの再構成を行う。そして、予め定義された背景の有効領域に適応した位置と向きの3Dオブジェクトを配置することにより、拡張駆動シーンを得ることができる。
論文参考訳（メタデータ） (2023-03-18T05:51:05Z)
TrafficBots: Towards World Models for Autonomous Driving Simulation and Motion Prediction [149.5716746789134]
我々は,データ駆動型交通シミュレーションを世界モデルとして定式化できることを示した。動作予測とエンドツーエンドの運転に基づくマルチエージェントポリシーであるTrafficBotsを紹介する。オープンモーションデータセットの実験は、TrafficBotsが現実的なマルチエージェント動作をシミュレートできることを示している。
論文参考訳（メタデータ） (2023-03-07T18:28:41Z)
Multi-Modal Fusion Transformer for End-to-End Autonomous Driving [59.60483620730437]
画像表現とLiDAR表現を注目で統合する,新しいマルチモードフュージョントランスフォーマであるTransFuserを提案する。本手法は, 衝突を76%低減しつつ, 最先端駆動性能を実現する。
論文参考訳（メタデータ） (2021-04-19T11:48:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。