論文の概要: OccSTeP: Benchmarking 4D Occupancy Spatio-Temporal Persistence
- arxiv url: http://arxiv.org/abs/2512.15621v1
- Date: Wed, 17 Dec 2025 17:29:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:27.078923
- Title: OccSTeP: Benchmarking 4D Occupancy Spatio-Temporal Persistence
- Title(参考訳): OccSTeP: 4D Occupancy Spatio-Temporal Persistenceのベンチマーク
- Authors: Yu Zheng, Jie Hu, Kailun Yang, Jiaming Zhang,
- Abstract要約: 我々は4D Occupancy Spatio-Temporal Persistence(OccSTeP)という新しい概念を導入する。
この概念は,(1)反応予測:「何が起こるか」,(2)前向き予測:「特定の将来の行動が与えられたら何が起こるか」という2つの課題に対処することを目的としている。
OccSTeP-WMは,高密度なボクセルベースのシーン状態を維持し,時間とともに段階的に時間的コンテキストを融合するトークンフリー世界モデルである。
- 参考スコア(独自算出の注目度): 19.81329748424203
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Autonomous driving requires a persistent understanding of 3D scenes that is robust to temporal disturbances and accounts for potential future actions. We introduce a new concept of 4D Occupancy Spatio-Temporal Persistence (OccSTeP), which aims to address two tasks: (1) reactive forecasting: ''what will happen next'' and (2) proactive forecasting: "what would happen given a specific future action". For the first time, we create a new OccSTeP benchmark with challenging scenarios (e.g., erroneous semantic labels and dropped frames). To address this task, we propose OccSTeP-WM, a tokenizer-free world model that maintains a dense voxel-based scene state and incrementally fuses spatio-temporal context over time. OccSTeP-WM leverages a linear-complexity attention backbone and a recurrent state-space module to capture long-range spatial dependencies while continually updating the scene memory with ego-motion compensation. This design enables online inference and robust performance even when historical sensor input is missing or noisy. Extensive experiments prove the effectiveness of the OccSTeP concept and our OccSTeP-WM, yielding an average semantic mIoU of 23.70% (+6.56% gain) and occupancy IoU of 35.89% (+9.26% gain). The data and code will be open source at https://github.com/FaterYU/OccSTeP.
- Abstract(参考訳): 自律運転は、時間的障害に対して堅牢な3Dシーンの永続的な理解を必要とし、将来の行動について説明する必要がある。
我々は,(1)反応予測:「次に何が起こるか」,(2)前向き予測:「特定の将来の行動が与えられたら何が起こるか」という2つの課題に対処することを目的とした,新しい4D Occupancy Spatio-Temporal Persistence(OccSTeP)の概念を導入する。
初めて、挑戦的なシナリオ(誤意味ラベルやドロップフレームなど)を備えた新しいOccSTePベンチマークを作成しました。
この課題に対処するために,OccSTeP-WMを提案する。OccSTeP-WMは,密度の高いボクセルベースのシーン状態を維持し,時間とともに時空間を段階的に融合する,トークンフリーの世界モデルである。
OccSTeP-WMは、リニア複雑注意バックボーンとリカレントステートスペースモジュールを利用して、長距離空間依存を捉えながら、エゴモーション補償でシーンメモリを継続的に更新する。
この設計は、歴史的センサ入力が欠落したりノイズが生じたりしても、オンライン推論と堅牢な性能を実現する。
OccSTePの概念とOccSTeP-WMの有効性が証明され、平均的なmIoUは23.70%(+6.56%)、占有率は35.89%(+9.26%)となった。
データとコードはhttps://github.com/FaterYU/OccSTePでオープンソース化される。
関連論文リスト
- Occupancy Learning with Spatiotemporal Memory [39.41175479685905]
本稿では,時間的整合性のある3次元占有特徴を効果的に学習するシーンレベルの占有表現学習フレームワークを提案する。
提案手法は,多フレーム入力間の時間的依存性を利用して,3次元占有予測タスクの時間的表現を著しく向上させる。
論文 参考訳(メタデータ) (2025-08-06T17:59:52Z) - GaussianWorld: Gaussian World Model for Streaming 3D Occupancy Prediction [67.81475355852997]
3次元占有予測は、周囲の包括的認識のため、自動運転にとって重要である。
本研究では、シーンの進化を知覚に利用するための世界モデルに基づくフレームワークを提案する。
我々のフレームワークは、追加の計算を導入することなく、mIoUの単一フレームの性能を2%以上向上させる。
論文 参考訳(メタデータ) (2024-12-13T18:59:54Z) - Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - Fully Sparse 3D Occupancy Prediction [37.265473869812816]
運転予測は自動運転において重要な役割を果たす。
従来の手法は通常、密集した3Dボリュームを構築し、シーン固有の空間を無視し、高い計算コストを被る。
我々は,SparseOccと呼ばれる,完全スパース占有ネットワークを新たに導入した。
SparseOccは最初、カメラのみの入力からスパース3D表現を再構築し、その後スパースクエリによって3Dスパース表現からセマンティック/インスタンス占有を予測する。
論文 参考訳(メタデータ) (2023-12-28T16:54:53Z) - Regularizing Self-supervised 3D Scene Flows with Surface Awareness and Cyclic Consistency [3.124750429062221]
2つの新たな一貫性損失を導入し、クラスタを拡大し、異なるオブジェクトに分散するのを防ぐ。
提案した損失はモデル独立であり、既存のモデルの性能を大幅に向上させるためにプラグアンドプレイ方式で使用できる。
また,4つの標準センサ一様駆動データセット上で,フレームワークの有効性と一般化能力を示す。
論文 参考訳(メタデータ) (2023-12-12T11:00:39Z) - P-STMO: Pre-Trained Spatial Temporal Many-to-One Model for 3D Human Pose
Estimation [78.83305967085413]
本稿では,2次元から3次元のポーズ推定作業のためのP-STMOモデルを提案する。
提案手法は,パラメータが少なく,計算オーバーヘッドが少なく,最先端の手法より優れている。
論文 参考訳(メタデータ) (2022-03-15T04:00:59Z) - A Graph Attention Spatio-temporal Convolutional Network for 3D Human
Pose Estimation in Video [7.647599484103065]
我々は,アテンション機構を用いた局所的グローバル空間情報のモデリングにより,人間の骨格における制約の学習を改善する。
提案手法は, 奥行きのあいまいさと自己閉塞性を効果的に軽減し, 半上半身推定を一般化し, 2次元から3次元映像のポーズ推定における競合性能を実現する。
論文 参考訳(メタデータ) (2020-03-11T14:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。