論文の概要: ST-GS: Vision-Based 3D Semantic Occupancy Prediction with Spatial-Temporal Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2509.16552v1
- Date: Sat, 20 Sep 2025 06:36:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.855419
- Title: ST-GS: Vision-Based 3D Semantic Occupancy Prediction with Spatial-Temporal Gaussian Splatting
- Title(参考訳): ST-GS:空間時間ガウス法による視覚に基づく3次元セマンティック占有予測
- Authors: Xiaoyang Yan, Muleilan Pei, Shaojie Shen,
- Abstract要約: 3次元占有予測は、視覚中心の自律運転における総合的なシーン理解に不可欠である。
近年, 計算オーバーヘッドを低減しつつ, 3次元意味ガウスモデルを用いて占有率をモデル化する研究が進められている。
本稿では,時空間モデリングと時空間モデリングの両立を図るため,新しい時空間ガウススティング(ST-GS)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 21.87807066521776
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D occupancy prediction is critical for comprehensive scene understanding in vision-centric autonomous driving. Recent advances have explored utilizing 3D semantic Gaussians to model occupancy while reducing computational overhead, but they remain constrained by insufficient multi-view spatial interaction and limited multi-frame temporal consistency. To overcome these issues, in this paper, we propose a novel Spatial-Temporal Gaussian Splatting (ST-GS) framework to enhance both spatial and temporal modeling in existing Gaussian-based pipelines. Specifically, we develop a guidance-informed spatial aggregation strategy within a dual-mode attention mechanism to strengthen spatial interaction in Gaussian representations. Furthermore, we introduce a geometry-aware temporal fusion scheme that effectively leverages historical context to improve temporal continuity in scene completion. Extensive experiments on the large-scale nuScenes occupancy prediction benchmark showcase that our proposed approach not only achieves state-of-the-art performance but also delivers markedly better temporal consistency compared to existing Gaussian-based methods.
- Abstract(参考訳): 3次元占有予測は、視覚中心の自律運転における総合的なシーン理解に不可欠である。
近年,3Dセマンティック・ガウシアンを用いて計算オーバーヘッドを減らしながら占有度をモデル化する手法が研究されているが,多視点空間相互作用が不十分であり,時間的整合性が限られている。
本稿では,既存のガウス系パイプラインにおける空間的・時間的モデリングを向上する新しい時空間ガウススティング(ST-GS)フレームワークを提案する。
具体的には、ガウス表現における空間的相互作用を強化するための2モードアテンション機構内で、誘導インフォームドな空間的アグリゲーション戦略を開発する。
さらに、歴史的文脈を効果的に活用し、シーン完了時の時間的連続性を改善する幾何学的時間的融合方式を提案する。
大規模nuScenes占有率予測ベンチマークの大規模な実験により,提案手法は最先端の性能を達成するだけでなく,既存のガウス法と比較して時間的整合性も著しく向上することが示された。
関連論文リスト
- A Retrieval Augmented Spatio-Temporal Framework for Traffic Prediction [33.28893562327803]
RASTは、大規模データセットの効率を維持しながら、優れたパフォーマンスを実現する。
フレームワークは3つの主要な設計で構成されている: 1) 分離された時間的特徴をキャプチャし、Retrieval-Augmented Generation (RAG), 2) 事前訓練されたST-GNNまたは単純な予測子に対応するUniversal Backbone Predict Storeor, 3) 事前訓練されたST-GNNまたは単純な予測子をサポートするUniversal Backbone Predict Storeor。
論文 参考訳(メタデータ) (2025-08-14T10:11:39Z) - Transformer with Koopman-Enhanced Graph Convolutional Network for Spatiotemporal Dynamics Forecasting [12.301897782320967]
TK-GCNは、幾何学的空間符号化と長距離時間モデリングを統合した2段階のフレームワークである。
我々は,TK-GCNが予測地平線全体にわたって優れた予測精度を提供することを示す。
論文 参考訳(メタデータ) (2025-07-05T01:26:03Z) - Geometry-aware Active Learning of Spatiotemporal Dynamic Systems [4.251030047034566]
本稿では,動的システムのモデリングのための幾何対応能動学習フレームワークを提案する。
データ収集のための空間的位置を戦略的に識別し、予測精度をさらに最大化する適応型能動学習戦略を開発した。
論文 参考訳(メタデータ) (2025-04-26T19:56:38Z) - Rethinking Temporal Fusion with a Unified Gradient Descent View for 3D Semantic Occupancy Prediction [62.69089767730514]
視覚に基づく3次元意味的占有予測(VisionOcc)のための時間融合法であるGAFusionを提案する。
これは、VisionOccフレームワーク内の時間融合の未調査の側面を開き、時間的手がかりと融合戦略の両方に焦点を当てる。
論文 参考訳(メタデータ) (2025-04-17T14:05:33Z) - Sequential Gaussian Avatars with Hierarchical Motion Context [7.6736633105043515]
SMPLで駆動される3DGSのヒトアバターは、フィット中のポーズから外観への複雑なマッピングにより、外観の細部を捉えるのに苦労する。
階層的な動きコンテキストに基づいて,人間のアバターをより良くモデル化するために,明示的な3DGS表現を探索するSeqAvatarを提案する。
提案手法は3DGSによるアプローチよりも優れており,最新のNeRFモデルよりも桁違いに高速に人間のアバターをレンダリングする。
論文 参考訳(メタデータ) (2024-11-25T04:05:19Z) - DeSiRe-GS: 4D Street Gaussians for Static-Dynamic Decomposition and Surface Reconstruction for Urban Driving Scenes [71.61083731844282]
本稿では,自己教師型ガウススプラッティング表現であるDeSiRe-GSについて述べる。
複雑な駆動シナリオにおいて、効率的な静的・動的分解と高忠実な表面再構成を可能にする。
論文 参考訳(メタデータ) (2024-11-18T05:49:16Z) - STGFormer: Spatio-Temporal GraphFormer for 3D Human Pose Estimation in Video [7.345621536750547]
本稿では,ビデオ中の3次元ポーズ推定のためのS-Temporal GraphFormerフレームワーク(STGFormer)を提案する。
まず,人体固有のグラフ分布をより効果的に活用するためのSTGアテンション機構を導入する。
次に、時間次元と空間次元を独立に並列に処理するための変調ホップワイド正規GCNを提案する。
最後に,Human3.6MおよびMPIINF-3DHPデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2024-07-14T06:45:27Z) - Triplet Attention Transformer for Spatiotemporal Predictive Learning [9.059462850026216]
本稿では,フレーム間動的特徴とフレーム内静的特徴の両方を捉えるために,革新的な三重項注意変換器を提案する。
このモデルはトリプレット・アテンション・モジュール(TAM)を組み込んだもので、時間、空間、チャネル次元における自己アテンションのメカニズムを探求することで、従来のリカレント・ユニットを置き換える。
論文 参考訳(メタデータ) (2023-10-28T12:49:33Z) - A Spatial-Temporal Attentive Network with Spatial Continuity for
Trajectory Prediction [74.00750936752418]
空間連続性をもつ空間時間減衰ネットワーク(STAN-SC)という新しいモデルを提案する。
まず、最も有用かつ重要な情報を探るために、空間的時間的注意機構を提示する。
第2に、生成軌道の空間的連続性を維持するために、シーケンスと瞬間状態情報に基づく共同特徴系列を実行する。
論文 参考訳(メタデータ) (2020-03-13T04:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。