論文の概要: SparseWorld-TC: Trajectory-Conditioned Sparse Occupancy World Model
- arxiv url: http://arxiv.org/abs/2511.22039v1
- Date: Thu, 27 Nov 2025 02:48:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.365749
- Title: SparseWorld-TC: Trajectory-Conditioned Sparse Occupancy World Model
- Title(参考訳): SparseWorld-TC: トラジェクティブ・コンディションド・スパース・オーカプラシー・ワールド・モデル
- Authors: Jiayuan Du, Yiming Zhao, Zhenglong Guo, Yong Pan, Wenbo Hou, Zhihui Hao, Kun Zhan, Qijun Chen,
- Abstract要約: 本稿では, これからの3Dシーン占有状況の軌跡条件予測のための新しいアーキテクチャを提案する。
GPTやVGGTのような基本的な視覚や言語モデルにおける注意に基づくトランスフォーマーアーキテクチャにインスパイアされた我々は、中間的な鳥の視線(BEV)投影と、その明示的な幾何学的先行をバイパスする疎密な占有表現を採用した。
離散トークン化の有限容量制約とBEV表現の構造的制約の両方を回避し、1-3秒の占有予測のためのnuScenesベンチマークにおける最先端性能を実現する。
- 参考スコア(独自算出の注目度): 27.54931639768958
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper introduces a novel architecture for trajectory-conditioned forecasting of future 3D scene occupancy. In contrast to methods that rely on variational autoencoders (VAEs) to generate discrete occupancy tokens, which inherently limit representational capacity, our approach predicts multi-frame future occupancy in an end-to-end manner directly from raw image features. Inspired by the success of attention-based transformer architectures in foundational vision and language models such as GPT and VGGT, we employ a sparse occupancy representation that bypasses the intermediate bird's eye view (BEV) projection and its explicit geometric priors. This design allows the transformer to capture spatiotemporal dependencies more effectively. By avoiding both the finite-capacity constraint of discrete tokenization and the structural limitations of BEV representations, our method achieves state-of-the-art performance on the nuScenes benchmark for 1-3 second occupancy forecasting, outperforming existing approaches by a significant margin. Furthermore, it demonstrates robust scene dynamics understanding, consistently delivering high accuracy under arbitrary future trajectory conditioning.
- Abstract(参考訳): 本稿では, これからの3Dシーン占有状況の軌跡条件予測のための新しいアーキテクチャを提案する。
可変オートエンコーダ(VAE)を用いて離散占有トークンを生成する手法とは対照的に,本手法では画像特徴から直接,複数フレームの将来の占有率を予測する。
GPTやVGGTのような基礎視覚や言語モデルにおける注目に基づくトランスフォーマーアーキテクチャの成功に触発されて、中間的な鳥の視線(BEV)の投影と、その明示的な幾何学的先行をバイパスする疎密な占有表現を採用した。
この設計により、変換器は時空間依存をより効果的に捉えることができる。
離散トークン化の有限容量制約とBEV表現の構造的制約の両方を避けることにより,1~3秒の占有予測におけるnuScenesベンチマークの最先端性能を達成し,既存手法よりも大幅に向上する。
さらに、任意の将来の軌道条件下で常に高い精度を達成し、堅牢なシーンダイナミクスの理解を示す。
関連論文リスト
- Efficient Virtuoso: A Latent Diffusion Transformer Model for Goal-Conditioned Trajectory Planning [0.0]
本稿では,目標条件付き軌道計画のための条件付き潜在拡散モデルであるEfficient Virtuosoを提案する。
提案手法は,Open Motionデータセット上での最先端性能を実現し,平均変位誤差(minADE)が0.25であることを示す。
一つのゴールが戦略的曖昧さを解決できる一方で、人間の運転行動を反映した正確で忠実な戦術実行を実現するためには、よりリッチで多段階のスパース経路が不可欠である。
論文 参考訳(メタデータ) (2025-09-03T19:18:02Z) - An Efficient Occupancy World Model via Decoupled Dynamic Flow and Image-assisted Training [50.71892161377806]
DFIT-OccWorldは、分離されたダイナミックフローとイメージアシストトレーニング戦略を活用する、効率的な3D占有世界モデルである。
提案モデルでは, 静止ボクセルはポーズ変換により容易に得られるのに対し, 既存のボクセルフローを用いて既存の観測を歪曲することで, 将来のダイナミックボクセルを予測できる。
論文 参考訳(メタデータ) (2024-12-18T12:10:33Z) - ALOcc: Adaptive Lifting-Based 3D Semantic Occupancy and Cost Volume-Based Flow Predictions [91.55655961014027]
シーン理解には3次元セマンティック占有とフロー予測が不可欠である。
本稿では,3つの改善点を目標とした視覚ベースのフレームワークを提案する。
我々の純粋な畳み込みアーキテクチャは、セマンティック占有率とジョイントセマンティックフロー予測の両方のために、複数のベンチマーク上で新しいSOTA性能を確立する。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - OPUS: Occupancy Prediction Using a Sparse Set [64.60854562502523]
学習可能なクエリの集合を用いて、占有された場所とクラスを同時に予測するフレームワークを提案する。
OPUSには、モデルパフォーマンスを高めるための非自明な戦略が組み込まれている。
最も軽量なモデルではOcc3D-nuScenesデータセットの2倍 FPS に優れたRayIoUが得られる一方、最も重いモデルは6.1 RayIoUを上回ります。
論文 参考訳(メタデータ) (2024-09-14T07:44:22Z) - AdaOcc: Adaptive Forward View Transformation and Flow Modeling for 3D Occupancy and Flow Prediction [56.72301849123049]
CVPR 2024 における nuScenes Open-Occ データセットチャレンジにおいて,視覚中心の3次元活動とフロー予測トラックのソリューションを提案する。
我々の革新的なアプローチは、適応的なフォワード・ビュー・トランスフォーメーションとフロー・モデリングを取り入れることで、3次元の占有率とフロー予測を向上させる2段階のフレームワークである。
提案手法は回帰と分類を組み合わせることで,様々な場面におけるスケールの変動に対処し,予測フローを利用して将来のフレームに現行のボクセル特徴をワープする。
論文 参考訳(メタデータ) (2024-07-01T16:32:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。