論文の概要: Vision-Centric 4D Occupancy Forecasting and Planning via Implicit Residual World Models
- arxiv url: http://arxiv.org/abs/2510.16729v2
- Date: Wed, 29 Oct 2025 06:53:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 18:06:01.956187
- Title: Vision-Centric 4D Occupancy Forecasting and Planning via Implicit Residual World Models
- Title(参考訳): 実世界モデルによる視覚中心型4次元作業予測と計画
- Authors: Jianbiao Mei, Yu Yang, Xuemeng Yang, Licheng Wen, Jiajun Lv, Botian Shi, Yong Liu,
- Abstract要約: Implicit Residual World Modelは、世界の現在の状態と進化をモデル化することに焦点を当てている。
IR-WMは4次元占有予測と軌道計画の両方において最高性能を達成する。
- 参考スコア(独自算出の注目度): 28.777224599594717
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: End-to-end autonomous driving systems increasingly rely on vision-centric world models to understand and predict their environment. However, a common ineffectiveness in these models is the full reconstruction of future scenes, which expends significant capacity on redundantly modeling static backgrounds. To address this, we propose IR-WM, an Implicit Residual World Model that focuses on modeling the current state and evolution of the world. IR-WM first establishes a robust bird's-eye-view representation of the current state from the visual observation. It then leverages the BEV features from the previous timestep as a strong temporal prior and predicts only the "residual", i.e., the changes conditioned on the ego-vehicle's actions and scene context. To alleviate error accumulation over time, we further apply an alignment module to calibrate semantic and dynamic misalignments. Moreover, we investigate different forecasting-planning coupling schemes and demonstrate that the implicit future state generated by world models substantially improves planning accuracy. On the nuScenes benchmark, IR-WM achieves top performance in both 4D occupancy forecasting and trajectory planning.
- Abstract(参考訳): エンドツーエンドの自動運転システムは、その環境を理解し予測するために、視覚中心の世界モデルに依存している。
しかし、これらのモデルで一般的な非効率性は将来のシーンの完全な再構築であり、静的な背景を冗長にモデル化する上でかなりの能力を持つ。
そこで本研究では,世界の現状と進化をモデル化することに焦点を当てたImplicit Residual World Model IR-WMを提案する。
IR-WMはまず、視覚観測から現在の状態の頑健な鳥の目視表現を確立する。
次に、前回の時間ステップのBEV特徴を強い時間的先行として活用し、エゴ車両の行動とシーンコンテキストに規定された変化を「残留」のみを予測する。
時間の経過とともにエラーの蓄積を緩和するため、意味的および動的ミスアライメントを調整するためのアライメントモジュールを更に適用する。
さらに,異なる予測計画結合方式について検討し,世界モデルが生成する暗黙の将来の状態が計画精度を大幅に向上することを示す。
nuScenesベンチマークでは、IR-WMは4D占有率予測と軌道計画の両方でトップパフォーマンスを達成する。
関連論文リスト
- Self-Correcting VLA: Online Action Refinement via Sparse World Imagination [55.982504915794514]
本稿では, 自己補正VLA (SC-VLA) を提案する。
SC-VLAは最先端のパフォーマンスを達成し、最高タスクスループットを16%削減し、最高パフォーマンスのベースラインよりも9%高い成功率を得る。
論文 参考訳(メタデータ) (2026-02-25T06:58:06Z) - ResWorld: Temporal Residual World Model for End-to-End Autonomous Driving [40.28153843744977]
動的オブジェクトモデリングに焦点を当てた時間的残留世界モデル(TR-World)を提案する。
シーン表現の時間的残差を計算することにより、動的対象の情報を検出・追跡に頼ることなく抽出することができる。
また,FGTR(Future-Guided Trajectory Refinement)モジュールも提案する。
論文 参考訳(メタデータ) (2026-02-11T14:12:26Z) - Walk through Paintings: Egocentric World Models from Internet Priors [65.30611174953958]
本稿では,エゴセントリック・ワールド・モデル(EgoWM)について述べる。
我々は、スクラッチからトレーニングするよりも、インターネット規模のビデオモデルのリッチワールドを再利用し、軽量なコンディショニング層を通じてモーターコマンドを注入する。
当社のアプローチは,3-DoF移動ロボットから25-DoFヒューマノイドまで,エボディメントやアクションスペースを自然に拡張する。
論文 参考訳(メタデータ) (2026-01-21T18:59:32Z) - Semantic Belief-State World Model for 3D Human Motion Prediction [0.0]
本研究では,人間の動作予測を人体多様体上の潜在力学シミュレーションとして再構成するセマンティック・リーフ・ステート・ワールド・モデルを提案する。
SBWMは、モデルに基づく強化学習のために開発された信念状態の世界モデルにインスパイアされ、潜伏遷移とロールアウト中心のトレーニングを人間の動作領域に適用する。
論文 参考訳(メタデータ) (2026-01-07T02:06:26Z) - From Forecasting to Planning: Policy World Model for Collaborative State-Action Prediction [57.56072009935036]
政策世界モデル(PWM)と呼ばれる新しい運転パラダイムを導入する。
PWMは、統一アーキテクチャ内での世界モデリングと軌道計画を統合する。
提案手法は,マルチビューおよびマルチモーダル入力に依存する最先端の手法に適合するか,あるいは超越する。
論文 参考訳(メタデータ) (2025-10-22T14:57:51Z) - SAMPO:Scale-wise Autoregression with Motion PrOmpt for generative world models [42.814012901180774]
textbfSAMPOは、フレーム内生成のための視覚的自己回帰モデリングと、次のフレーム生成のための因果モデリングを組み合わせたハイブリッドフレームワークである。
動作条件付きビデオ予測とモデルベース制御において,SAMPOが競合性能を発揮することを示す。
また、SAMPOのゼロショット一般化とスケーリング挙動を評価し、未知のタスクに一般化する能力を示す。
論文 参考訳(メタデータ) (2025-09-19T02:41:37Z) - Reimagination with Test-time Observation Interventions: Distractor-Robust World Model Predictions for Visual Model Predictive Control [51.14656121641822]
世界モデルは、現在の観測と計画された行動によって、ロボットが将来の観察を「想像」することができる。
新たな視覚的障害は、行動結果の予測を破損させ、ロボットが計画や行動検証のために世界モデルの想像力に依存するとき、下流の障害を引き起こす可能性がある。
本稿では、世界モデルによるより信頼性の高い行動結果の予測を可能にする簡易かつ効果的なテストタイム戦略であるReOI(Reimagination with Observation Intervention)を提案する。
論文 参考訳(メタデータ) (2025-06-19T19:41:29Z) - FutureSightDrive: Thinking Visually with Spatio-Temporal CoT for Autonomous Driving [16.588458512862932]
視覚言語モデル(VLM)は、強力な推論能力のため、自動運転への関心が高まっている。
本稿では,モデルが視覚的に考えることを可能にするコテンポラル-T推論手法を提案する。
論文 参考訳(メタデータ) (2025-05-23T09:55:32Z) - LaDi-WM: A Latent Diffusion-based World Model for Predictive Manipulation [45.02469804709771]
拡散モデルを用いて将来の状態の潜伏空間を予測する世界モデルLaDi-WMを提案する。
LIBERO-LONGベンチマークでは,LaDi-WMが27.9%,現実シナリオでは20%,政策性能が著しく向上することを示した。
論文 参考訳(メタデータ) (2025-05-13T04:42:14Z) - An Efficient Occupancy World Model via Decoupled Dynamic Flow and Image-assisted Training [50.71892161377806]
DFIT-OccWorldは、分離されたダイナミックフローとイメージアシストトレーニング戦略を活用する、効率的な3D占有世界モデルである。
提案モデルでは, 静止ボクセルはポーズ変換により容易に得られるのに対し, 既存のボクセルフローを用いて既存の観測を歪曲することで, 将来のダイナミックボクセルを予測できる。
論文 参考訳(メタデータ) (2024-12-18T12:10:33Z) - Physics-guided Active Sample Reweighting for Urban Flow Prediction [75.24539704456791]
都市フロー予測は、バス、タクシー、ライド駆動モデルといった交通サービスのスループットを見積もる、微妙な時間的モデリングである。
最近の予測解は、物理学誘導機械学習(PGML)の概念による改善をもたらす。
我々は、PN(atized Physics-guided Network)を開発し、P-GASR(Physical-guided Active Sample Reweighting)を提案する。
論文 参考訳(メタデータ) (2024-07-18T15:44:23Z) - UnO: Unsupervised Occupancy Fields for Perception and Forecasting [33.205064287409094]
監督されたアプローチは、アノテートされたオブジェクトラベルを利用して世界のモデルを学ぶ。
我々は,LiDARデータから連続した4次元占有領域を自己監督して知覚し,予測することを学ぶ。
この教師なしの世界モデルは、タスクに簡単かつ効果的に転送できる。
論文 参考訳(メタデータ) (2024-06-12T23:22:23Z) - Zero-shot Safety Prediction for Autonomous Robots with Foundation World Models [0.12499537119440243]
世界モデルは、コントローラを訓練し、システムの内部のダイナミックモデルを学ぶことによって安全違反を予測するために代理世界を作成する。
本稿では,観察を意味的かつ因果的に潜伏した表現に組み込む基礎世界モデルを提案する。
これにより、Surrogate dynamicsは、トレーニング不要な大規模言語モデルを活用することで、因果先状態を直接予測できる。
論文 参考訳(メタデータ) (2024-03-30T20:03:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。