論文の概要: D$^2$-World: An Efficient World Model through Decoupled Dynamic Flow
- arxiv url: http://arxiv.org/abs/2411.17027v1
- Date: Tue, 26 Nov 2024 01:42:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:35:19.815846
- Title: D$^2$-World: An Efficient World Model through Decoupled Dynamic Flow
- Title(参考訳): D$^2$-World: 分離された動的流れによる効率的な世界モデル
- Authors: Haiming Zhang, Xu Yan, Ying Xue, Zixuan Guo, Shuguang Cui, Zhen Li, Bingbing Liu,
- Abstract要約: CVPR-2024 Workshop on Foundation Models for Autonomous Systems(CVPR-2024)で開催される予測的世界モデルチャレンジの2番目のソリューションを要約する。
D$2$-Worldは、Decoupled Dynamic Flowを通して将来の点雲を効果的に予測する新しい世界モデルである。
提案手法は,OpenScene Predictive World Modelベンチマークの最先端性能を実現し,第2位を確保し,ベースラインモデルよりも300%以上高速なトレーニングを行う。
- 参考スコア(独自算出の注目度): 47.361822281431586
- License:
- Abstract: This technical report summarizes the second-place solution for the Predictive World Model Challenge held at the CVPR-2024 Workshop on Foundation Models for Autonomous Systems. We introduce D$^2$-World, a novel World model that effectively forecasts future point clouds through Decoupled Dynamic flow. Specifically, the past semantic occupancies are obtained via existing occupancy networks (e.g., BEVDet). Following this, the occupancy results serve as the input for a single-stage world model, generating future occupancy in a non-autoregressive manner. To further simplify the task, dynamic voxel decoupling is performed in the world model. The model generates future dynamic voxels by warping the existing observations through voxel flow, while remaining static voxels can be easily obtained through pose transformation. As a result, our approach achieves state-of-the-art performance on the OpenScene Predictive World Model benchmark, securing second place, and trains more than 300% faster than the baseline model. Code is available at https://github.com/zhanghm1995/D2-World.
- Abstract(参考訳): CVPR-2024 Workshop on Foundation Models for Autonomous Systems(CVPR-2024)で開催される予測的世界モデルチャレンジの2番目のソリューションを要約する。
我々は,D$^2$-Worldを紹介した。D$^2$-Worldは,Decoupled Dynamic Flowを通して将来の点雲を効果的に予測する新しい世界モデルである。
具体的には、過去の意味的占有は、既存の占有ネットワーク(例えば、BEVDet)を介して得られる。
これに続いて、占有結果は単一段階の世界モデルの入力として機能し、非自己回帰的な将来の占有を生成する。
タスクをさらに単純化するために、ワールドモデルで動的ボクセルデカップリングを行う。
このモデルでは、既存の観測をボクセルフローでワープすることで将来の動的ボクセルを生成するが、残った静止ボクセルはポーズ変換により容易に得ることができる。
その結果,提案手法は,OpenScene Predictive World Modelベンチマークの最先端性能を実現し,第2位を確保し,ベースラインモデルよりも300%以上の速度でトレーニングを行うことができた。
コードはhttps://github.com/zhanghm 1995/D2-Worldで公開されている。
関連論文リスト
- Imagine-2-Drive: High-Fidelity World Modeling in CARLA for Autonomous Vehicles [9.639797094021988]
本稿では,VISTAPlanとDPAの2つのコンポーネントで構成されるフレームワークであるImagine-2-Driveを紹介する。
DPAは、軌道予測のための多モード挙動をモデル化するための拡散に基づくポリシーである。
我々は,標準走行距離における技術(SOTA)世界モデルの現状を,ルート完了率と成功率でそれぞれ15%,20%上回った。
論文 参考訳(メタデータ) (2024-11-15T13:17:54Z) - WHALE: Towards Generalizable and Scalable World Models for Embodied Decision-making [40.53824201182517]
本稿では、一般化可能な世界モデルを学ぶためのフレームワークであるWHALEを紹介する。
Whale-STは、拡張一般化性を備えた時空間変圧器を用いたスケーラブルな世界モデルである。
また、Open X-Embodimentデータセットから970K軌道上でトレーニングされた414MパラメータワールドモデルであるWhale-Xを提案する。
論文 参考訳(メタデータ) (2024-11-08T15:01:27Z) - DOME: Taming Diffusion Model into High-Fidelity Controllable Occupancy World Model [14.996395953240699]
DOMEは拡散に基づく世界モデルであり、過去の占有観察に基づいて将来の占有枠を予測する。
この世界のモデルが環境の進化を捉える能力は、自動運転の計画に不可欠である。
論文 参考訳(メタデータ) (2024-10-14T12:24:32Z) - Masked Generative Priors Improve World Models Sequence Modelling Capabilities [19.700020499490137]
Masked Generative Modellingはより効率的で優れた帰納的バイアスとして登場した。
GIT-STORMは、Atari 100kベンチマークでRLタスクのパフォーマンスが大幅に向上したことを示している。
トランスフォーマーをベースとした世界モデルが初めて連続行動環境に適用し、先行研究における大きなギャップに対処する。
論文 参考訳(メタデータ) (2024-10-10T11:52:07Z) - AdaOcc: Adaptive Forward View Transformation and Flow Modeling for 3D Occupancy and Flow Prediction [56.72301849123049]
CVPR 2024 における nuScenes Open-Occ データセットチャレンジにおいて,視覚中心の3次元活動とフロー予測トラックのソリューションを提案する。
我々の革新的なアプローチは、適応的なフォワード・ビュー・トランスフォーメーションとフロー・モデリングを取り入れることで、3次元の占有率とフロー予測を向上させる2段階のフレームワークである。
提案手法は回帰と分類を組み合わせることで,様々な場面におけるスケールの変動に対処し,予測フローを利用して将来のフレームに現行のボクセル特徴をワープする。
論文 参考訳(メタデータ) (2024-07-01T16:32:15Z) - EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via
Self-Supervision [85.17951804790515]
EmerNeRFは動的駆動シーンの時空間表現を学習するためのシンプルだが強力なアプローチである。
シーンの幾何学、外観、動き、セマンティクスを自己ブートストラップで同時にキャプチャする。
本手法はセンサシミュレーションにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-11-03T17:59:55Z) - STORM: Efficient Stochastic Transformer based World Models for
Reinforcement Learning [82.03481509373037]
近年,モデルに基づく強化学習アルゴリズムは視覚入力環境において顕著な有効性を示している。
本稿では,強力なモデリングと生成機能を組み合わせた効率的な世界モデルアーキテクチャであるTransformer-based wORld Model (STORM)を紹介する。
Stormは、Atari 100$kベンチマークで平均126.7%の人的パフォーマンスを達成し、最先端のメソッドの中で新しい記録を樹立した。
論文 参考訳(メタデータ) (2023-10-14T16:42:02Z) - Generative Modeling with Phase Stochastic Bridges [49.4474628881673]
拡散モデル(DM)は、連続入力のための最先端の生成モデルを表す。
我々はtextbfphase space dynamics に基づく新しい生成モデリングフレームワークを提案する。
我々のフレームワークは、動的伝播の初期段階において、現実的なデータポイントを生成する能力を示す。
論文 参考訳(メタデータ) (2023-10-11T18:38:28Z) - Autoregressive Dynamics Models for Offline Policy Evaluation and
Optimization [60.73540999409032]
表現的自己回帰ダイナミクスモデルが次の状態の異なる次元を生成し、以前の次元で順次条件付きで報酬を得ることを示す。
また,リプレイバッファを充実させる手段として,自己回帰的ダイナミクスモデルがオフラインポリシー最適化に有用であることを示す。
論文 参考訳(メタデータ) (2021-04-28T16:48:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。