論文の概要: SparseWorld: A Flexible, Adaptive, and Efficient 4D Occupancy World Model Powered by Sparse and Dynamic Queries
- arxiv url: http://arxiv.org/abs/2510.17482v1
- Date: Mon, 20 Oct 2025 12:26:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.449332
- Title: SparseWorld: A Flexible, Adaptive, and Efficient 4D Occupancy World Model Powered by Sparse and Dynamic Queries
- Title(参考訳): SparseWorld: スパースと動的クエリによって駆動されるフレキシブルで適応的で効率的な4Dアクシデンシーワールドモデル
- Authors: Chenxu Dang, Haiyan Liu, Guangjun Bao, Pei An, Xinyue Tang, Jie Ma, Bingchuan Sun, Yan Wang,
- Abstract要約: 本稿では,スパースおよび動的クエリをベースとした,フレキシブルで適応性があり,効率の良い4次元占有型世界モデルを提案する。
SparseWorldは、認識、予測、計画タスクにわたる最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 13.979063743254725
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic occupancy has emerged as a powerful representation in world models for its ability to capture rich spatial semantics. However, most existing occupancy world models rely on static and fixed embeddings or grids, which inherently limit the flexibility of perception. Moreover, their ``in-place classification" over grids exhibits a potential misalignment with the dynamic and continuous nature of real scenarios.In this paper, we propose SparseWorld, a novel 4D occupancy world model that is flexible, adaptive, and efficient, powered by sparse and dynamic queries. We propose a Range-Adaptive Perception module, in which learnable queries are modulated by the ego vehicle states and enriched with temporal-spatial associations to enable extended-range perception. To effectively capture the dynamics of the scene, we design a State-Conditioned Forecasting module, which replaces classification-based forecasting with regression-guided formulation, precisely aligning the dynamic queries with the continuity of the 4D environment. In addition, We specifically devise a Temporal-Aware Self-Scheduling training strategy to enable smooth and efficient training. Extensive experiments demonstrate that SparseWorld achieves state-of-the-art performance across perception, forecasting, and planning tasks. Comprehensive visualizations and ablation studies further validate the advantages of SparseWorld in terms of flexibility, adaptability, and efficiency. The code is available at https://github.com/MSunDYY/SparseWorld.
- Abstract(参考訳): セマンティックな占有力は、豊かな空間的意味論を捉える能力のために、世界モデルにおいて強力な表現として現れてきた。
しかし、既存の世界のほとんどのモデルは静的で固定的な埋め込みや格子に依存しており、知覚の柔軟性を本質的に制限している。
さらに, グリッド上での「インプレース分類」は, 現実シナリオの動的かつ連続的な性質と, 潜在的なミスアライメントを示す。本稿では, スパースおよび動的クエリをベースとした, フレキシブルで適応的で効率の良い, 新規な4D占有世界モデルであるSparseWorldを提案する。
本研究では,学習可能な問合せをエゴの車両状態によって変調し,時間空間の関連性に富み,拡張範囲の知覚を可能にするレンジ適応型知覚モジュールを提案する。
動的クエリと4D環境の連続性を正確に整合させて,分類に基づく予測と回帰誘導型定式化を置き換えたステートコンディション型予測モジュールを設計する。
さらに、スムーズで効率的なトレーニングを実現するために、テンポラル・アウェア・セルフスケジューリング・トレーニング戦略を特に考案する。
大規模な実験により、SparseWorldは認識、予測、計画タスクを越えて最先端のパフォーマンスを達成する。
総合的な可視化とアブレーション研究は、柔軟性、適応性、効率性の観点から、スパースワールドの利点をさらに検証する。
コードはhttps://github.com/MSunDYY/SparseWorldで公開されている。
関連論文リスト
- A Time-Series Foundation Model by Universal Delay Embedding [4.221753069966852]
本研究は,時系列予測に革命をもたらすための事前訓練された基礎モデルであるUniversal Delay Embedding (UDE)を紹介する。
観測データの動的表現としてのUDEは、ハンケル行列から2次元部分空間パッチを構成する。
特に、学習された動的表現とパッチからのクープマン作用素予測形式は例外的な解釈可能性を示す。
論文 参考訳(メタデータ) (2025-09-15T16:11:49Z) - TARDIS STRIDE: A Spatio-Temporal Road Image Dataset and World Model for Autonomy [44.85881816317044]
本研究では,360度パノラマ画像を相互接続した観測,状態,行動ノードに変換する方法を示す。
我々は、このデータセットをトランスフォーマーベースの生成ワールドモデルであるTARDISを介してベンチマークする。
我々は、制御可能な画像合成、命令追従、自律的自己制御、最先端のジオレファレンスなど、さまざまなエージェントタスクにおいて、堅牢な性能を示す。
論文 参考訳(メタデータ) (2025-06-12T21:08:11Z) - Dynamic Manipulation of Deformable Objects in 3D: Simulation, Benchmark and Learning Strategy [88.8665000676562]
従来の手法は、しばしば問題を低速または2D設定に単純化し、現実の3Dタスクに適用性を制限する。
データ不足を軽減するため、新しいシミュレーションフレームワークと、低次ダイナミクスに基づくベンチマークを導入する。
本研究では,シミュレーション前トレーニングと物理インフォームドテスト時間適応を統合するフレームワークであるDynamics Informed Diffusion Policy (DIDP)を提案する。
論文 参考訳(メタデータ) (2025-05-23T03:28:25Z) - Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics [50.191655141020505]
この研究は、長期水平予測、エラー蓄積、およびsim-to-real転送の課題に対処することで、モデルに基づく強化学習を前進させる。
スケーラブルでロバストなフレームワークを提供することで、現実のアプリケーションにおいて適応的で効率的なロボットシステムを実現することができる。
論文 参考訳(メタデータ) (2025-01-17T10:39:09Z) - An Efficient Occupancy World Model via Decoupled Dynamic Flow and Image-assisted Training [50.71892161377806]
DFIT-OccWorldは、分離されたダイナミックフローとイメージアシストトレーニング戦略を活用する、効率的な3D占有世界モデルである。
提案モデルでは, 静止ボクセルはポーズ変換により容易に得られるのに対し, 既存のボクセルフローを用いて既存の観測を歪曲することで, 将来のダイナミックボクセルを予測できる。
論文 参考訳(メタデータ) (2024-12-18T12:10:33Z) - Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - Dream to Explore: Adaptive Simulations for Autonomous Systems [3.0664963196464448]
ベイズ的非パラメトリック法を適用し,力学系制御の学習に挑戦する。
ガウス過程を用いて潜在世界力学を探索することにより、強化学習で観測される一般的なデータ効率の問題を緩和する。
本アルゴリズムは,ログの変動的下界を最適化することにより,世界モデルと政策を共同で学習する。
論文 参考訳(メタデータ) (2021-10-27T04:27:28Z) - S2RMs: Spatially Structured Recurrent Modules [105.0377129434636]
モジュール構造とテンポラル構造の両方を同時に活用できる動的構造を利用するための一歩を踏み出します。
我々のモデルは利用可能なビューの数に対して堅牢であり、追加のトレーニングなしで新しいタスクに一般化できる。
論文 参考訳(メタデータ) (2020-07-13T17:44:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。