論文の概要: GEM: Gaussian Evolution Model for Occupancy Forecasting and Motion Planning
- arxiv url: http://arxiv.org/abs/2605.17682v1
- Date: Sun, 17 May 2026 22:52:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:48.395228
- Title: GEM: Gaussian Evolution Model for Occupancy Forecasting and Motion Planning
- Title(参考訳): GEM:活動予測と運動計画のためのガウス進化モデル
- Authors: Cheng Chen, Hao Huang, Saurabh Bagchi,
- Abstract要約: 本研究では,将来的な意味的占有予測と行動計画のための非自己回帰的占有世界モデルを提案する。
GEMは、現在最先端のセマンティック占有率予測と強力なモーションプランニング性能を実現する。
- 参考スコア(独自算出の注目度): 13.877624821024535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Future 3D semantic occupancy forecasting and motion planning are central to autonomous driving, as they require models to reason about how surrounding scenes evolve and how the ego vehicle should act. Existing occupancy world models commonly discretize scenes into latent embeddings, volumetric features, or quantized tokens, and forecast future states through fixed-step autoregressive generation. This limits temporal flexibility, obscures scene evolution, accumulates errors over long horizons, and poorly matches the continuous-time dynamics of real driving scenes. We propose GEM, a Gaussian Evolution Model for non-autoregressive occupancy world modeling, where driving scenes are represented as explicit continuous 4D Gaussian primitives with learned dynamics. Instead of rolling out future occupancy states step by step, GEM directly queries the Gaussian world representation at arbitrary timestamps and splats the corresponding conditional 3D Gaussians into semantic occupancy volumes. This enables efficient forecasting over the full horizon while retaining a compact and interpretable scene representation. By decoupling spatial geometry, temporal support, and primitive motion, GEM makes the predicted world easier to inspect, as each primitive's evolution can be followed continuously over time. The same representation also supports motion planning by predicting future ego trajectories from the learned Gaussian world. Extensive experiments show that GEM achieves state-of-the-art future semantic occupancy forecasting and strong motion planning performance, while providing flexible temporal querying.
- Abstract(参考訳): 将来の3Dセマンティック占有予測とモーションプランニングは、周囲のシーンがどのように進化し、エゴ車両がどのように振る舞うべきかのモデルを必要とするため、自動運転の中心となる。
既存の占有世界モデルは、通常、シーンを遅延埋め込み、ボリューム特徴、または量子化トークンに識別し、固定ステップの自己回帰生成を通じて将来の状態を予測します。
これは時間的柔軟性を制限し、シーンの進化を曖昧にし、長い地平線上でエラーを蓄積し、実際の運転シーンの連続的なダイナミックスと不一致である。
本稿では,非自己回帰的占領世界モデリングのためのガウス進化モデルであるGEMを提案する。
将来の占有状態を段階的に展開する代わりに、GEMは任意のタイムスタンプでガウス世界表現を直接クエリし、対応する条件付き3Dガウスを意味的占有ボリュームに分割する。
これにより、コンパクトで解釈可能なシーン表現を維持しながら、全地平線上での効率的な予測が可能になる。
空間幾何学、時間的支援、原始運動を分離することにより、GEMは予測世界を検査しやすくする。
同じ表現は、学習したガウス世界から将来のエゴ軌道を予測することによって、運動計画もサポートする。
広汎な実験により、GEMは、柔軟な時間的クエリを提供しながら、最先端のセマンティック占有予測と強力な動き計画性能を達成することが示されている。
関連論文リスト
- Bridging Scene Generation and Planning: Driving with World Model via Unifying Vision and Motion Representation [66.7879424097418]
We present WorldDrive, a holistic framework that couples scene generation and real-time planning through unified vision and motion representation。
動きの表現、視覚的表現、エゴ状態の間の単純な相互作用は、高品質でマルチモーダルな軌道を生成することができる。
NAVSIM、NAVSIM-v2、nuScenesベンチマークの実験は、WorldDriveが視覚のみの手法で主要な計画性能を達成することを示した。
論文 参考訳(メタデータ) (2026-03-16T07:59:39Z) - VGGT-World: Transforming VGGT into an Autoregressive Geometry World Model [59.789011777899965]
VGGT-World(VGGT-World)は、ビデオ生成を完全にサイドステップで行い、凍った幾何学的境界モデルの特徴の時間的進化を予測する幾何学世界モデルである。
VGGT-Worldは3.6~5倍高速で、トレーニング可能なパラメータはわずか0.43Bである。
論文 参考訳(メタデータ) (2026-03-13T04:56:43Z) - EgoMoD: Predicting Global Maps of Dynamics from Local Egocentric Observations [3.5831173106587393]
Maps of Dynamics (MoDs) は、長期のグローバルプランニングに有用な空間における動き傾向の構造化された表現を提供する。
EgoMoDは,ロボット操作中に収集した短い自我中心のビデオクリップから直接,未来のMoDを予測するための最初のアプローチである。
本手法は,外部観測から学習したMoDを用いて学習した映像とポーズ条件のアーキテクチャを用いて,局所的な動的キューから環境全体の動き傾向を推定する。
論文 参考訳(メタデータ) (2026-02-26T09:56:21Z) - Space-Time Forecasting of Dynamic Scenes with Motion-aware Gaussian Grouping [47.282424020983996]
MoGaF は 4D Gaussian Splatting 表現に基づいて構築された長期シーン外挿のためのフレームワークである。
軽量な予測モジュールは将来の動きを予測し、現実的で時間的に安定したシーンの進化を可能にする。
合成および実世界のデータセットの実験により、MoGaFはレンダリング品質、運動可視性、長期予測安定性において、既存のベースラインを一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2026-02-25T08:04:07Z) - GaussianWorld: Gaussian World Model for Streaming 3D Occupancy Prediction [67.81475355852997]
3次元占有予測は、周囲の包括的認識のため、自動運転にとって重要である。
本研究では、シーンの進化を知覚に利用するための世界モデルに基づくフレームワークを提案する。
我々のフレームワークは、追加の計算を導入することなく、mIoUの単一フレームの性能を2%以上向上させる。
論文 参考訳(メタデータ) (2024-12-13T18:59:54Z) - GaussianPrediction: Dynamic 3D Gaussian Prediction for Motion Extrapolation and Free View Synthesis [71.24791230358065]
動的シーンモデリングと将来のシナリオ合成により,3次元ガウス表現を実現する新しいフレームワークを提案する。
GaussianPredictionは、ダイナミックなシーンのビデオ観察を使用して、あらゆる視点から将来の状態を予測できる。
本フレームワークは,合成データセットと実世界のデータセットの両方で優れた性能を示し,将来の環境の予測とレンダリングの有効性を示す。
論文 参考訳(メタデータ) (2024-05-30T06:47:55Z) - AMP: Autoregressive Motion Prediction Revisited with Next Token Prediction for Autonomous Driving [59.94343412438211]
本稿では,GPT方式の次のトークン動作予測を動作予測に導入する。
同種単位-ワードからなる言語データとは異なり、運転シーンの要素は複雑な空間的・時間的・意味的な関係を持つ可能性がある。
そこで本稿では,情報集約と位置符号化スタイルの異なる3つの因子化アテンションモジュールを用いて,それらの関係を捉えることを提案する。
論文 参考訳(メタデータ) (2024-03-20T06:22:37Z) - GenAD: Generative End-to-End Autonomous Driving [13.332272121018285]
GenADは、ジェネレーティブモデリング問題に自律運転を組み込むジェネレーティブフレームワークである。
本稿では,まず周囲のシーンをマップ対応のインスタンストークンに変換するインスタンス中心のシーントークン化手法を提案する。
次に、変動型オートエンコーダを用いて、軌道先行モデリングのための構造潜在空間における将来の軌道分布を学習する。
論文 参考訳(メタデータ) (2024-02-18T08:21:05Z) - A Spatio-temporal Transformer for 3D Human Motion Prediction [39.31212055504893]
本研究では,3次元人間の動きの生成モデル作成作業のためのトランスフォーマーに基づくアーキテクチャを提案する。
実験により,これが基礎となる運動力学を効果的に学習し,自己回帰モデルで観測される時間経過に伴う誤差の蓄積を低減することを示した。
論文 参考訳(メタデータ) (2020-04-18T19:49:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。