論文の概要: OccTENS: 3D Occupancy World Model via Temporal Next-Scale Prediction
- arxiv url: http://arxiv.org/abs/2509.03887v1
- Date: Thu, 04 Sep 2025 05:06:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.055348
- Title: OccTENS: 3D Occupancy World Model via Temporal Next-Scale Prediction
- Title(参考訳): OccTENS: 時間的次世代予測による3次元業務世界モデル
- Authors: Bu Jin, Songen Gu, Xiaotao Hu, Yupeng Zheng, Xiaoyang Guo, Qian Zhang, Xiaoxiao Long, Wei Yin,
- Abstract要約: OccTENS (OccTENS) は、制御可能な、高忠実な長期の占有率生成を可能にする、世代的占有率の世界モデルである。
我々は、占領世界モデルを時間的次規模予測(TENS)タスクとして再構成する。
OccTENSは、高い占有率と高速な推論時間の両方で最先端の手法より優れている。
- 参考スコア(独自算出の注目度): 25.630452373274636
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper, we propose OccTENS, a generative occupancy world model that enables controllable, high-fidelity long-term occupancy generation while maintaining computational efficiency. Different from visual generation, the occupancy world model must capture the fine-grained 3D geometry and dynamic evolution of the 3D scenes, posing great challenges for the generative models. Recent approaches based on autoregression (AR) have demonstrated the potential to predict vehicle movement and future occupancy scenes simultaneously from historical observations, but they typically suffer from \textbf{inefficiency}, \textbf{temporal degradation} in long-term generation and \textbf{lack of controllability}. To holistically address these issues, we reformulate the occupancy world model as a temporal next-scale prediction (TENS) task, which decomposes the temporal sequence modeling problem into the modeling of spatial scale-by-scale generation and temporal scene-by-scene prediction. With a \textbf{TensFormer}, OccTENS can effectively manage the temporal causality and spatial relationships of occupancy sequences in a flexible and scalable way. To enhance the pose controllability, we further propose a holistic pose aggregation strategy, which features a unified sequence modeling for occupancy and ego-motion. Experiments show that OccTENS outperforms the state-of-the-art method with both higher occupancy quality and faster inference time.
- Abstract(参考訳): 本稿では,OccTENSを提案する。OccTENSは,計算効率を保ちながら,制御可能な,高忠実な長期占有率生成を可能にする生成的占有率世界モデルである。
視覚生成と異なり、占有する世界モデルは3Dシーンの微細な3次元形状と動的進化を捉える必要があり、生成モデルには大きな課題が生じる。
オートレグレッション(AR)に基づく最近のアプローチは、歴史的観測から車両の動きと将来の占有シーンを同時に予測する可能性を示しているが、それらは一般的に、長期的な世代における‘textbf{inefficiency}’、‘textbf{temporal degradation}’、そして‘textbf{lack of controllability}に悩まされる。
これらの問題を解決するために,時間列モデリング問題を空間的スケール・バイ・スケール・ジェネレーションと時間的シーン・バイ・シーン予測のモデル化に分解する,時間的次スケール予測(TENS)タスクとして,占領世界モデルを再構築する。
OccTENSは、textbf{TensFormer} を用いることで、フレキシブルでスケーラブルな方法で、占有配列の時間的因果関係と空間的関係を効果的に管理できる。
さらに、ポーズ制御性を高めるために、占拠とエゴモーションのための統合シーケンスモデリングを特徴とする、全体論的ポーズアグリゲーション戦略を提案する。
実験により、OccTENSは、高い占有率と高速な推論時間の両方で最先端の手法より優れていることが示された。
関連論文リスト
- StarPose: 3D Human Pose Estimation via Spatial-Temporal Autoregressive Diffusion [29.682018018059043]
StarPoseは3次元人間のポーズ推定のための自己回帰拡散フレームワークである。
歴史的3Dポーズの予測と空間的物理的ガイダンスが組み込まれている。
人間の3次元ポーズ推定における精度と時間的一貫性を向上する。
論文 参考訳(メタデータ) (2025-08-04T04:50:05Z) - Next-Generation Conflict Forecasting: Unleashing Predictive Patterns through Spatiotemporal Learning [0.0]
本研究では、3つの異なるタイプの暴力を事前に36ヶ月予測するためのニューラルネットワークアーキテクチャを提案する。
このモデルは確率的分類と回帰タスクを共同で実行し、将来の事象の予測と予測等級を生成する。
警告システム、人道的対応計画、証拠に基づく平和構築イニシアチブのための有望なツールである。
論文 参考訳(メタデータ) (2025-06-08T20:42:29Z) - Learning 3D Persistent Embodied World Models [84.40585374179037]
我々は、以前に生成されたコンテンツの明示的なメモリを備えた、新しい永続的エンボディド・ワールドモデルを導入する。
映像拡散モデルでは, 映像拡散モデルにより, エージェントの今後の観察のRGB-D映像が予測される。
この生成は、環境の永続的な3Dマップに集約される。
論文 参考訳(メタデータ) (2025-05-05T17:59:17Z) - An Efficient Occupancy World Model via Decoupled Dynamic Flow and Image-assisted Training [50.71892161377806]
DFIT-OccWorldは、分離されたダイナミックフローとイメージアシストトレーニング戦略を活用する、効率的な3D占有世界モデルである。
提案モデルでは, 静止ボクセルはポーズ変換により容易に得られるのに対し, 既存のボクセルフローを用いて既存の観測を歪曲することで, 将来のダイナミックボクセルを予測できる。
論文 参考訳(メタデータ) (2024-12-18T12:10:33Z) - DOME: Taming Diffusion Model into High-Fidelity Controllable Occupancy World Model [14.996395953240699]
DOMEは拡散に基づく世界モデルであり、過去の占有観察に基づいて将来の占有枠を予測する。
この世界のモデルが環境の進化を捉える能力は、自動運転の計画に不可欠である。
論文 参考訳(メタデータ) (2024-10-14T12:24:32Z) - STGFormer: Spatio-Temporal GraphFormer for 3D Human Pose Estimation in Video [7.345621536750547]
本稿では,ビデオ中の3次元ポーズ推定のためのS-Temporal GraphFormerフレームワーク(STGFormer)を提案する。
まず,人体固有のグラフ分布をより効果的に活用するためのSTGアテンション機構を導入する。
次に、時間次元と空間次元を独立に並列に処理するための変調ホップワイド正規GCNを提案する。
最後に,Human3.6MおよびMPIINF-3DHPデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2024-07-14T06:45:27Z) - Generative Modeling with Phase Stochastic Bridges [49.4474628881673]
拡散モデル(DM)は、連続入力のための最先端の生成モデルを表す。
我々はtextbfphase space dynamics に基づく新しい生成モデリングフレームワークを提案する。
我々のフレームワークは、動的伝播の初期段階において、現実的なデータポイントを生成する能力を示す。
論文 参考訳(メタデータ) (2023-10-11T18:38:28Z) - Multivariate Time Series Forecasting with Dynamic Graph Neural ODEs [65.18780403244178]
動的グラフニューラル正規微分方程式(MTGODE)を用いた多変量時系列予測連続モデルを提案する。
具体的には、まず、時間進化するノードの特徴と未知のグラフ構造を持つ動的グラフに多変量時系列を抽象化する。
そして、欠落したグラフトポロジを補完し、空間的および時間的メッセージパッシングを統一するために、ニューラルODEを設計、解決する。
論文 参考訳(メタデータ) (2022-02-17T02:17:31Z) - Disentangling and Unifying Graph Convolutions for Skeleton-Based Action
Recognition [79.33539539956186]
本稿では,マルチスケールグラフ畳み込みと,G3Dという空間時間グラフ畳み込み演算子を結合する簡単な方法を提案する。
これらの提案を結合することにより,MS-G3Dという強力な特徴抽出器を開発し,そのモデルが3つの大規模データセット上で従来の最先端手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-03-31T11:28:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。