論文の概要: DOME: Taming Diffusion Model into High-Fidelity Controllable Occupancy World Model
- arxiv url: http://arxiv.org/abs/2410.10429v1
- Date: Mon, 14 Oct 2024 12:24:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-29 21:44:49.424335
- Title: DOME: Taming Diffusion Model into High-Fidelity Controllable Occupancy World Model
- Title(参考訳): DOME: 拡散モデルから高忠実度制御可能な業務世界モデルへ
- Authors: Songen Gu, Wei Yin, Bu Jin, Xiaoyang Guo, Junming Wang, Haodong Li, Qian Zhang, Xiaoxiao Long,
- Abstract要約: DOMEは拡散に基づく世界モデルであり、過去の占有観察に基づいて将来の占有枠を予測する。
この世界のモデルが環境の進化を捉える能力は、自動運転の計画に不可欠である。
- 参考スコア(独自算出の注目度): 14.996395953240699
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We propose DOME, a diffusion-based world model that predicts future occupancy frames based on past occupancy observations. The ability of this world model to capture the evolution of the environment is crucial for planning in autonomous driving. Compared to 2D video-based world models, the occupancy world model utilizes a native 3D representation, which features easily obtainable annotations and is modality-agnostic. This flexibility has the potential to facilitate the development of more advanced world models. Existing occupancy world models either suffer from detail loss due to discrete tokenization or rely on simplistic diffusion architectures, leading to inefficiencies and difficulties in predicting future occupancy with controllability. Our DOME exhibits two key features:(1) High-Fidelity and Long-Duration Generation. We adopt a spatial-temporal diffusion transformer to predict future occupancy frames based on historical context. This architecture efficiently captures spatial-temporal information, enabling high-fidelity details and the ability to generate predictions over long durations. (2)Fine-grained Controllability. We address the challenge of controllability in predictions by introducing a trajectory resampling method, which significantly enhances the model's ability to generate controlled predictions. Extensive experiments on the widely used nuScenes dataset demonstrate that our method surpasses existing baselines in both qualitative and quantitative evaluations, establishing a new state-of-the-art performance on nuScenes. Specifically, our approach surpasses the baseline by 10.5% in mIoU and 21.2% in IoU for occupancy reconstruction and by 36.0% in mIoU and 24.6% in IoU for 4D occupancy forecasting.
- Abstract(参考訳): 本研究では,過去の占有状況から将来の占有状況を予測する拡散型世界モデルDOMEを提案する。
この世界のモデルが環境の進化を捉える能力は、自動運転の計画に不可欠である。
2Dビデオベースの世界モデルと比較して、占有する世界モデルはネイティブな3D表現を利用しており、容易に入手可能なアノテーションを備え、モダリティに依存しない。
この柔軟性は、より先進的な世界モデルの開発を促進する可能性がある。
既存の占有世界モデルは、離散的なトークン化による詳細な損失に悩まされるか、単純化された拡散アーキテクチャに依存するかのいずれかであり、制御可能性による将来の占有率を予測するための非効率性と困難をもたらす。
DOMEには,(1)高忠実度と長期耐久性の2つの特徴がある。
時空間拡散変換器を用いて,歴史的文脈に基づく将来の占有枠の予測を行う。
このアーキテクチャは、空間的時間情報を効率的にキャプチャし、高忠実度の詳細と長期にわたって予測を生成することができる。
(2)きめ細かい制御性
本稿では,モデルが制御された予測を生成する能力を大幅に向上させる軌道再サンプリング手法を導入することにより,予測における制御可能性の課題に対処する。
広範に使用されているnuScenesデータセットに関する大規模な実験により,本手法は定性評価と定量的評価の両方において既存のベースラインを超え,nuScenesの新たな最先端性能を確立した。
具体的には,IoUのベースラインを10.5%,IoUの21.2%,IoUの36.0%,IoUの24.6%を4次元占有予測で上回っている。
関連論文リスト
- D$^2$-World: An Efficient World Model through Decoupled Dynamic Flow [47.361822281431586]
CVPR-2024 Workshop on Foundation Models for Autonomous Systems(CVPR-2024)で開催される予測的世界モデルチャレンジの2番目のソリューションを要約する。
D$2$-Worldは、Decoupled Dynamic Flowを通して将来の点雲を効果的に予測する新しい世界モデルである。
提案手法は,OpenScene Predictive World Modelベンチマークの最先端性能を実現し,第2位を確保し,ベースラインモデルよりも300%以上高速なトレーニングを行う。
論文 参考訳(メタデータ) (2024-11-26T01:42:49Z) - WHALE: Towards Generalizable and Scalable World Models for Embodied Decision-making [40.53824201182517]
本稿では、一般化可能な世界モデルを学ぶためのフレームワークであるWHALEを紹介する。
Whale-STは、拡張一般化性を備えた時空間変圧器を用いたスケーラブルな世界モデルである。
また、Open X-Embodimentデータセットから970K軌道上でトレーニングされた414MパラメータワールドモデルであるWhale-Xを提案する。
論文 参考訳(メタデータ) (2024-11-08T15:01:27Z) - OPUS: Occupancy Prediction Using a Sparse Set [64.60854562502523]
学習可能なクエリの集合を用いて、占有された場所とクラスを同時に予測するフレームワークを提案する。
OPUSには、モデルパフォーマンスを高めるための非自明な戦略が組み込まれている。
最も軽量なモデルではOcc3D-nuScenesデータセットの2倍 FPS に優れたRayIoUが得られる一方、最も重いモデルは6.1 RayIoUを上回ります。
論文 参考訳(メタデータ) (2024-09-14T07:44:22Z) - AdaOcc: Adaptive Forward View Transformation and Flow Modeling for 3D Occupancy and Flow Prediction [56.72301849123049]
CVPR 2024 における nuScenes Open-Occ データセットチャレンジにおいて,視覚中心の3次元活動とフロー予測トラックのソリューションを提案する。
我々の革新的なアプローチは、適応的なフォワード・ビュー・トランスフォーメーションとフロー・モデリングを取り入れることで、3次元の占有率とフロー予測を向上させる2段階のフレームワークである。
提案手法は回帰と分類を組み合わせることで,様々な場面におけるスケールの変動に対処し,予測フローを利用して将来のフレームに現行のボクセル特徴をワープする。
論文 参考訳(メタデータ) (2024-07-01T16:32:15Z) - Regions are Who Walk Them: a Large Pre-trained Spatiotemporal Model
Based on Human Mobility for Ubiquitous Urban Sensing [24.48869607589127]
本研究では,人体移動データに含まれるリッチな情報を活用するために,トラジェクトリ(RAW)に基づく大規模時空間モデルを提案する。
提案手法は,人間の移動データのみに特色を持たず,ユーザのプロファイリングや地域分析に一定の関連性を示す。
論文 参考訳(メタデータ) (2023-11-17T11:55:11Z) - Foundation Models for Generalist Geospatial Artificial Intelligence [3.7002058945990415]
本稿では,大規模データに基づく基礎モデルの事前学習と微調整を効果的に行うための第1種フレームワークを提案する。
我々はこの枠組みを利用して、マルチスペクトル衛星画像の1TB以上を事前トレーニングしたトランスフォーマーベースの基礎モデルであるPrithviを開発した。
論文 参考訳(メタデータ) (2023-10-28T10:19:55Z) - Generative Modeling with Phase Stochastic Bridges [49.4474628881673]
拡散モデル(DM)は、連続入力のための最先端の生成モデルを表す。
我々はtextbfphase space dynamics に基づく新しい生成モデリングフレームワークを提案する。
我々のフレームワークは、動的伝播の初期段階において、現実的なデータポイントを生成する能力を示す。
論文 参考訳(メタデータ) (2023-10-11T18:38:28Z) - Predictive World Models from Real-World Partial Observations [66.80340484148931]
本研究では,現実の道路環境に対する確率論的予測世界モデル学習のためのフレームワークを提案する。
従来の手法では、学習のための基礎的真理として完全状態を必要とするが、HVAEが部分的に観察された状態のみから完全状態を予測することを学べる新しい逐次訓練法を提案する。
論文 参考訳(メタデータ) (2023-01-12T02:07:26Z) - A generic diffusion-based approach for 3D human pose prediction in the
wild [68.00961210467479]
3D人間のポーズ予測、すなわち、過去の観察されたポーズのシーケンスが与えられた後の人間の3Dポーズのシーケンスを予測することは、困難な時間課題である。
本稿では,不完全な要素(予測や観測に関係しない)をノイズとして扱える統一的な定式化法を提案し,それらを認知し,妥当なポーズを予測する条件拡散モデルを提案する。
本研究は,4つの標準データセットについて検討し,現状よりも大幅に改善された。
論文 参考訳(メタデータ) (2022-10-11T17:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。