論文の概要: ResWorld: Temporal Residual World Model for End-to-End Autonomous Driving
- arxiv url: http://arxiv.org/abs/2602.10884v1
- Date: Wed, 11 Feb 2026 14:12:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.980799
- Title: ResWorld: Temporal Residual World Model for End-to-End Autonomous Driving
- Title(参考訳): ResWorld: エンド・ツー・エンドの自動運転のための時間的残留世界モデル
- Authors: Jinqing Zhang, Zehua Fu, Zelin Xu, Wenying Dai, Qingjie Liu, Yunhong Wang,
- Abstract要約: 動的オブジェクトモデリングに焦点を当てた時間的残留世界モデル(TR-World)を提案する。
シーン表現の時間的残差を計算することにより、動的対象の情報を検出・追跡に頼ることなく抽出することができる。
また,FGTR(Future-Guided Trajectory Refinement)モジュールも提案する。
- 参考スコア(独自算出の注目度): 40.28153843744977
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The comprehensive understanding capabilities of world models for driving scenarios have significantly improved the planning accuracy of end-to-end autonomous driving frameworks. However, the redundant modeling of static regions and the lack of deep interaction with trajectories hinder world models from exerting their full effectiveness. In this paper, we propose Temporal Residual World Model (TR-World), which focuses on dynamic object modeling. By calculating the temporal residuals of scene representations, the information of dynamic objects can be extracted without relying on detection and tracking. TR-World takes only temporal residuals as input, thus predicting the future spatial distribution of dynamic objects more precisely. By combining the prediction with the static object information contained in the current BEV features, accurate future BEV features can be obtained. Furthermore, we propose Future-Guided Trajectory Refinement (FGTR) module, which conducts interaction between prior trajectories (predicted from the current scene representation) and the future BEV features. This module can not only utilize future road conditions to refine trajectories, but also provides sparse spatial-temporal supervision on future BEV features to prevent world model collapse. Comprehensive experiments conducted on the nuScenes and NAVSIM datasets demonstrate that our method, namely ResWorld, achieves state-of-the-art planning performance. The code is available at https://github.com/mengtan00/ResWorld.git.
- Abstract(参考訳): シナリオ駆動のための世界モデルの包括的な理解能力は、エンドツーエンドの自動運転フレームワークの計画精度を大幅に向上させた。
しかし、静的領域の冗長なモデリングと軌跡との深い相互作用の欠如により、世界モデルがその完全な効果を発揮できなくなる。
本稿では,動的オブジェクトモデリングに焦点を当てた時間的残留世界モデル(TR-World)を提案する。
シーン表現の時間的残差を計算することにより、動的対象の情報を検出・追跡に頼ることなく抽出することができる。
TR-Worldは時間的残差のみを入力とし、ダイナミックオブジェクトの空間分布をより正確に予測する。
予測と現在のBEV特徴に含まれる静的物体情報とを組み合わせることにより、正確な将来のBEV特徴を得ることができる。
さらに,FGTR(Future-Guided Trajectory Refinement)モジュールを提案する。
このモジュールは、将来の道路条件を利用して軌道を洗練できるだけでなく、将来のBEVの特徴を空間的に微妙に監視することで、世界モデルの崩壊を防ぐことができる。
nuScenes および NAVSIM データセットを用いた総合実験により,我々の手法,すなわち ResWorld が最先端の計画性能を達成することを示す。
コードはhttps://github.com/mengtan00/ResWorld.gitで公開されている。
関連論文リスト
- Vision-Centric 4D Occupancy Forecasting and Planning via Implicit Residual World Models [28.777224599594717]
Implicit Residual World Modelは、世界の現在の状態と進化をモデル化することに焦点を当てている。
IR-WMは4次元占有予測と軌道計画の両方において最高性能を達成する。
論文 参考訳(メタデータ) (2025-10-19T06:45:37Z) - End-to-End Driving with Online Trajectory Evaluation via BEV World Model [52.10633338584164]
本稿では,BEV Worldモデルを活用し,将来のBEV状態を予測するためのエンドツーエンド駆動フレームワークWoTEを提案する。
我々は,NAVSIMベンチマークとCARLAシミュレータに基づく閉ループBench2Driveベンチマークを用いて,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-04-02T17:47:23Z) - Driving in the Occupancy World: Vision-Centric 4D Occupancy Forecasting and Planning via World Models for Autonomous Driving [15.100104512786107]
Drive-OccWorldは、自動運転のエンドツーエンド計画にビジョン中心の4D予測ワールドモデルを適用する。
制御可能な生成を可能にするために,速度,操舵角度,軌道,指令などの柔軟な動作条件を世界モデルに注入することを提案する。
本手法は,多目的かつ制御可能な4D占有率を創出し,次世代の運転とエンド・ツー・エンド・プランニングの進歩への道を開く。
論文 参考訳(メタデータ) (2024-08-26T11:53:09Z) - Physics-guided Active Sample Reweighting for Urban Flow Prediction [75.24539704456791]
都市フロー予測は、バス、タクシー、ライド駆動モデルといった交通サービスのスループットを見積もる、微妙な時間的モデリングである。
最近の予測解は、物理学誘導機械学習(PGML)の概念による改善をもたらす。
我々は、PN(atized Physics-guided Network)を開発し、P-GASR(Physical-guided Active Sample Reweighting)を提案する。
論文 参考訳(メタデータ) (2024-07-18T15:44:23Z) - Predicting Future Occupancy Grids in Dynamic Environment with
Spatio-Temporal Learning [63.25627328308978]
本稿では,将来の占有予測を生成するための時間的予測ネットワークパイプラインを提案する。
現在のSOTAと比較して、我々の手法は3秒の長い水平線での占有を予測している。
我々は、さらなる研究を支援するために、nulisに基づくグリッド占有データセットを公開します。
論文 参考訳(メタデータ) (2022-05-06T13:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。