論文の概要: An Efficient Occupancy World Model via Decoupled Dynamic Flow and Image-assisted Training
- arxiv url: http://arxiv.org/abs/2412.13772v1
- Date: Wed, 18 Dec 2024 12:10:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 16:48:02.522464
- Title: An Efficient Occupancy World Model via Decoupled Dynamic Flow and Image-assisted Training
- Title(参考訳): 切り離されたダイナミックフローとイメージアシストトレーニングによる効率的な作業世界モデル
- Authors: Haiming Zhang, Ying Xue, Xu Yan, Jiacheng Zhang, Weichao Qiu, Dongfeng Bai, Bingbing Liu, Shuguang Cui, Zhen Li,
- Abstract要約: DFIT-OccWorldは、分離されたダイナミックフローとイメージアシストトレーニング戦略を活用する、効率的な3D占有世界モデルである。
提案モデルでは, 静止ボクセルはポーズ変換により容易に得られるのに対し, 既存のボクセルフローを用いて既存の観測を歪曲することで, 将来のダイナミックボクセルを予測できる。
- 参考スコア(独自算出の注目度): 50.71892161377806
- License:
- Abstract: The field of autonomous driving is experiencing a surge of interest in world models, which aim to predict potential future scenarios based on historical observations. In this paper, we introduce DFIT-OccWorld, an efficient 3D occupancy world model that leverages decoupled dynamic flow and image-assisted training strategy, substantially improving 4D scene forecasting performance. To simplify the training process, we discard the previous two-stage training strategy and innovatively reformulate the occupancy forecasting problem as a decoupled voxels warping process. Our model forecasts future dynamic voxels by warping existing observations using voxel flow, whereas static voxels are easily obtained through pose transformation. Moreover, our method incorporates an image-assisted training paradigm to enhance prediction reliability. Specifically, differentiable volume rendering is adopted to generate rendered depth maps through predicted future volumes, which are adopted in render-based photometric consistency. Experiments demonstrate the effectiveness of our approach, showcasing its state-of-the-art performance on the nuScenes and OpenScene benchmarks for 4D occupancy forecasting, end-to-end motion planning and point cloud forecasting. Concretely, it achieves state-of-the-art performances compared to existing 3D world models while incurring substantially lower computational costs.
- Abstract(参考訳): 自動運転の分野は、歴史的観測に基づいて将来のシナリオを予測することを目的として、世界モデルへの関心が高まっている。
本稿では,非結合なダイナミックフローと画像支援型トレーニング戦略を活用し,4次元シーン予測性能を大幅に向上させる,効率的な3次元占有型世界モデルDFIT-OccWorldを紹介する。
トレーニングプロセスを簡素化するため,従来の2段階のトレーニング戦略を廃止し,分離されたボクセルワーププロセスとして,占有率予測問題を革新的に再構築する。
提案モデルでは, 静止ボクセルはポーズ変換により容易に得られるのに対し, 既存のボクセルフローを用いて既存の観測を歪曲することで, 将来のダイナミックボクセルを予測できる。
さらに,予測信頼性を高めるために,画像支援トレーニングパラダイムを取り入れた。
具体的には、差分可能なボリュームレンダリングを採用して、予測される将来のボリュームを通して描画深度マップを生成し、レンダリングベースの測光一貫性に採用する。
提案手法の有効性を実証し, nuScenes と OpenScene の4次元占有予測, エンドツーエンド動作計画, ポイントクラウド予測のためのベンチマークを行った。
具体的には、既存の3Dワールドモデルと比較して、計算コストを大幅に削減しながら、最先端のパフォーマンスを達成する。
関連論文リスト
- Semi-Supervised Vision-Centric 3D Occupancy World Model for Autonomous Driving [22.832008530490167]
2Dラベルの可能性を生かした半教師付き視覚中心型3D占有型世界モデルPreWorldを提案する。
PreWorldは、3D占有率予測、4D占有率予測、モーションプランニングタスクの競合的なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-02-11T07:12:26Z) - DOME: Taming Diffusion Model into High-Fidelity Controllable Occupancy World Model [14.996395953240699]
DOMEは拡散に基づく世界モデルであり、過去の占有観察に基づいて将来の占有枠を予測する。
この世界のモデルが環境の進化を捉える能力は、自動運転の計画に不可欠である。
論文 参考訳(メタデータ) (2024-10-14T12:24:32Z) - AdaOcc: Adaptive Forward View Transformation and Flow Modeling for 3D Occupancy and Flow Prediction [56.72301849123049]
CVPR 2024 における nuScenes Open-Occ データセットチャレンジにおいて,視覚中心の3次元活動とフロー予測トラックのソリューションを提案する。
我々の革新的なアプローチは、適応的なフォワード・ビュー・トランスフォーメーションとフロー・モデリングを取り入れることで、3次元の占有率とフロー予測を向上させる2段階のフレームワークである。
提案手法は回帰と分類を組み合わせることで,様々な場面におけるスケールの変動に対処し,予測フローを利用して将来のフレームに現行のボクセル特徴をワープする。
論文 参考訳(メタデータ) (2024-07-01T16:32:15Z) - Decomposing weather forecasting into advection and convection with neural networks [6.78786601630176]
本稿では,動的コアの水平移動と物理パラメータ化の垂直移動を別々に学習する,シンプルで効果的な機械学習モデルを提案する。
我々のモデルは、大気モデルにおける変数の遷移をシミュレートするための、新しく効率的な視点を提供する。
論文 参考訳(メタデータ) (2024-05-10T16:46:32Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via
Self-Supervision [85.17951804790515]
EmerNeRFは動的駆動シーンの時空間表現を学習するためのシンプルだが強力なアプローチである。
シーンの幾何学、外観、動き、セマンティクスを自己ブートストラップで同時にキャプチャする。
本手法はセンサシミュレーションにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-11-03T17:59:55Z) - Physics-Inspired Temporal Learning of Quadrotor Dynamics for Accurate
Model Predictive Trajectory Tracking [76.27433308688592]
クオーロタのシステムダイナミクスを正確にモデル化することは、アジャイル、安全、安定したナビゲーションを保証する上で非常に重要です。
本稿では,ロボットの経験から,四重項系の力学を純粋に学習するための新しい物理インスパイアされた時間畳み込みネットワーク(PI-TCN)を提案する。
提案手法は,スパース時間的畳み込みと高密度フィードフォワード接続の表現力を組み合わせて,正確なシステム予測を行う。
論文 参考訳(メタデータ) (2022-06-07T13:51:35Z) - Tracking and Planning with Spatial World Models [17.698319441265223]
本研究では,異なる世界モデルを用いたリアルタイムナビゲーションとトラッキング手法を提案する。
画像と深度観測のみを用いて15Hzの周波数で最大92%の航法成功率を実現した。
論文 参考訳(メタデータ) (2022-01-25T14:16:46Z) - Consistency Guided Scene Flow Estimation [159.24395181068218]
CGSFは立体映像からの3次元シーン構造と動きの同時再構成のための自己教師型フレームワークである。
提案モデルでは,課題の画像の相違やシーンフローを確実に予測できることを示す。
最先端技術よりも優れた一般化を実現し、目に見えない領域に迅速かつ堅牢に適応する。
論文 参考訳(メタデータ) (2020-06-19T17:28:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。