論文の概要: Vision-Centric 4D Occupancy Forecasting and Planning via Implicit Residual World Models
- arxiv url: http://arxiv.org/abs/2510.16729v2
- Date: Wed, 29 Oct 2025 06:53:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 18:06:01.956187
- Title: Vision-Centric 4D Occupancy Forecasting and Planning via Implicit Residual World Models
- Title(参考訳): 実世界モデルによる視覚中心型4次元作業予測と計画
- Authors: Jianbiao Mei, Yu Yang, Xuemeng Yang, Licheng Wen, Jiajun Lv, Botian Shi, Yong Liu,
- Abstract要約: Implicit Residual World Modelは、世界の現在の状態と進化をモデル化することに焦点を当てている。
IR-WMは4次元占有予測と軌道計画の両方において最高性能を達成する。
- 参考スコア(独自算出の注目度): 28.777224599594717
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: End-to-end autonomous driving systems increasingly rely on vision-centric world models to understand and predict their environment. However, a common ineffectiveness in these models is the full reconstruction of future scenes, which expends significant capacity on redundantly modeling static backgrounds. To address this, we propose IR-WM, an Implicit Residual World Model that focuses on modeling the current state and evolution of the world. IR-WM first establishes a robust bird's-eye-view representation of the current state from the visual observation. It then leverages the BEV features from the previous timestep as a strong temporal prior and predicts only the "residual", i.e., the changes conditioned on the ego-vehicle's actions and scene context. To alleviate error accumulation over time, we further apply an alignment module to calibrate semantic and dynamic misalignments. Moreover, we investigate different forecasting-planning coupling schemes and demonstrate that the implicit future state generated by world models substantially improves planning accuracy. On the nuScenes benchmark, IR-WM achieves top performance in both 4D occupancy forecasting and trajectory planning.
- Abstract(参考訳): エンドツーエンドの自動運転システムは、その環境を理解し予測するために、視覚中心の世界モデルに依存している。
しかし、これらのモデルで一般的な非効率性は将来のシーンの完全な再構築であり、静的な背景を冗長にモデル化する上でかなりの能力を持つ。
そこで本研究では,世界の現状と進化をモデル化することに焦点を当てたImplicit Residual World Model IR-WMを提案する。
IR-WMはまず、視覚観測から現在の状態の頑健な鳥の目視表現を確立する。
次に、前回の時間ステップのBEV特徴を強い時間的先行として活用し、エゴ車両の行動とシーンコンテキストに規定された変化を「残留」のみを予測する。
時間の経過とともにエラーの蓄積を緩和するため、意味的および動的ミスアライメントを調整するためのアライメントモジュールを更に適用する。
さらに,異なる予測計画結合方式について検討し,世界モデルが生成する暗黙の将来の状態が計画精度を大幅に向上することを示す。
nuScenesベンチマークでは、IR-WMは4D占有率予測と軌道計画の両方でトップパフォーマンスを達成する。
関連論文リスト
- From Forecasting to Planning: Policy World Model for Collaborative State-Action Prediction [57.56072009935036]
政策世界モデル(PWM)と呼ばれる新しい運転パラダイムを導入する。
PWMは、統一アーキテクチャ内での世界モデリングと軌道計画を統合する。
提案手法は,マルチビューおよびマルチモーダル入力に依存する最先端の手法に適合するか,あるいは超越する。
論文 参考訳(メタデータ) (2025-10-22T14:57:51Z) - FutureSightDrive: Thinking Visually with Spatio-Temporal CoT for Autonomous Driving [16.588458512862932]
視覚言語モデル(VLM)は、強力な推論能力のため、自動運転への関心が高まっている。
本稿では,モデルが視覚的に考えることを可能にするコテンポラル-T推論手法を提案する。
論文 参考訳(メタデータ) (2025-05-23T09:55:32Z) - LaDi-WM: A Latent Diffusion-based World Model for Predictive Manipulation [45.02469804709771]
拡散モデルを用いて将来の状態の潜伏空間を予測する世界モデルLaDi-WMを提案する。
LIBERO-LONGベンチマークでは,LaDi-WMが27.9%,現実シナリオでは20%,政策性能が著しく向上することを示した。
論文 参考訳(メタデータ) (2025-05-13T04:42:14Z) - An Efficient Occupancy World Model via Decoupled Dynamic Flow and Image-assisted Training [50.71892161377806]
DFIT-OccWorldは、分離されたダイナミックフローとイメージアシストトレーニング戦略を活用する、効率的な3D占有世界モデルである。
提案モデルでは, 静止ボクセルはポーズ変換により容易に得られるのに対し, 既存のボクセルフローを用いて既存の観測を歪曲することで, 将来のダイナミックボクセルを予測できる。
論文 参考訳(メタデータ) (2024-12-18T12:10:33Z) - UnO: Unsupervised Occupancy Fields for Perception and Forecasting [33.205064287409094]
監督されたアプローチは、アノテートされたオブジェクトラベルを利用して世界のモデルを学ぶ。
我々は,LiDARデータから連続した4次元占有領域を自己監督して知覚し,予測することを学ぶ。
この教師なしの世界モデルは、タスクに簡単かつ効果的に転送できる。
論文 参考訳(メタデータ) (2024-06-12T23:22:23Z) - Zero-shot Safety Prediction for Autonomous Robots with Foundation World Models [0.12499537119440243]
世界モデルは、コントローラを訓練し、システムの内部のダイナミックモデルを学ぶことによって安全違反を予測するために代理世界を作成する。
本稿では,観察を意味的かつ因果的に潜伏した表現に組み込む基礎世界モデルを提案する。
これにより、Surrogate dynamicsは、トレーニング不要な大規模言語モデルを活用することで、因果先状態を直接予測できる。
論文 参考訳(メタデータ) (2024-03-30T20:03:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。