論文の概要: Progressive Gaussian Transformer with Anisotropy-aware Sampling for Open Vocabulary Occupancy Prediction
- arxiv url: http://arxiv.org/abs/2510.04759v1
- Date: Mon, 06 Oct 2025 12:36:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.854154
- Title: Progressive Gaussian Transformer with Anisotropy-aware Sampling for Open Vocabulary Occupancy Prediction
- Title(参考訳): オープンボキャブラリ占有予測のための異方性を考慮したプログレッシブガウス変換器
- Authors: Chi Yan, Dan Xu,
- Abstract要約: オープンな3次元占有予測を可能にする革新的プログレッシブ・ガウス変換フレームワークPG-Occを提案する。
本フレームワークでは,3次元ガウス表現を段階的に強化し,細かなシーンの詳細を捉えるフィードフォワード戦略であるプログレッシブオンラインデシフィケーションを採用している。
PG-Occは従来よりも14.3%mIoUの改善が得られた。
- 参考スコア(独自算出の注目度): 9.952279648243058
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The 3D occupancy prediction task has witnessed remarkable progress in recent years, playing a crucial role in vision-based autonomous driving systems. While traditional methods are limited to fixed semantic categories, recent approaches have moved towards predicting text-aligned features to enable open-vocabulary text queries in real-world scenes. However, there exists a trade-off in text-aligned scene modeling: sparse Gaussian representation struggles to capture small objects in the scene, while dense representation incurs significant computational overhead. To address these limitations, we present PG-Occ, an innovative Progressive Gaussian Transformer Framework that enables open-vocabulary 3D occupancy prediction. Our framework employs progressive online densification, a feed-forward strategy that gradually enhances the 3D Gaussian representation to capture fine-grained scene details. By iteratively enhancing the representation, the framework achieves increasingly precise and detailed scene understanding. Another key contribution is the introduction of an anisotropy-aware sampling strategy with spatio-temporal fusion, which adaptively assigns receptive fields to Gaussians at different scales and stages, enabling more effective feature aggregation and richer scene information capture. Through extensive evaluations, we demonstrate that PG-Occ achieves state-of-the-art performance with a relative 14.3% mIoU improvement over the previous best performing method. Code and pretrained models will be released upon publication on our project page: https://yanchi-3dv.github.io/PG-Occ
- Abstract(参考訳): 3Dの占有率予測タスクは近年顕著な進歩をみせており、ビジョンベースの自動運転システムにおいて重要な役割を担っている。
従来の手法は固定的なセマンティックなカテゴリに限られているが、最近のアプローチは、実世界のシーンでオープン語彙のテキストクエリを可能にするために、テキスト整列機能の予測に向けられている。
しかし、テキスト・アライン・シーン・モデリングにはトレードオフがある: 疎いガウス表現はシーン内の小さなオブジェクトを捉えるのに苦労するが、密度の高い表現は計算上のオーバーヘッドを著しく引き起こす。
これらの制約に対処するために,オープンな3次元占有予測を可能にする革新的プログレッシブ・ガウス変圧器フレームワークPG-Occを提案する。
本フレームワークでは,3次元ガウス表現を段階的に強化し,細かなシーンの詳細を捉えるフィードフォワード戦略であるプログレッシブオンラインデシフィケーションを採用している。
表現を反復的に強化することにより、フレームワークはより正確で詳細なシーン理解を実現する。
もう一つの重要な貢献は、時空間融合による異方性を考慮したサンプリング戦略の導入である。
PG-Occは従来よりも14.3%mIoUの改善が得られた。
コードと事前トレーニングされたモデルは、プロジェクトのページで公開される。
関連論文リスト
- Intern-GS: Vision Model Guided Sparse-View 3D Gaussian Splatting [95.61137026932062]
Intern-GSはスパースビューガウススプラッティングのプロセスを強化する新しいアプローチである。
Intern-GSは多様なデータセットにまたがって最先端のレンダリング品質を実現する。
論文 参考訳(メタデータ) (2025-05-27T05:17:49Z) - EmbodiedOcc: Embodied 3D Occupancy Prediction for Vision-based Online Scene Understanding [72.96388875744704]
3D占有予測は周囲のシーンを包括的に記述する。
既存のほとんどのメソッドは、1つか数つのビューからのオフラインの認識に焦点を当てている。
具体化された3次元占有予測タスクを定式化し,ガウスをベースとしたEmbodiedOccフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-05T17:57:09Z) - DGTR: Distributed Gaussian Turbo-Reconstruction for Sparse-View Vast Scenes [81.56206845824572]
新規ビュー合成(NVS)アプローチは、広大なシーン再構築において重要な役割を担っている。
大規模な環境下では、復元の質が悪くなる場合が少なくない。
本稿では,スパース・ビュー・ワイド・シーンのための効率的なガウス再構成のための分散フレームワークであるDGTRを提案する。
論文 参考訳(メタデータ) (2024-11-19T07:51:44Z) - NeuralBlox: Real-Time Neural Representation Fusion for Robust Volumetric
Mapping [29.3378360000956]
本稿では,ニューラル暗黙表現の最近の進歩を活かした新しい3次元マッピング手法を提案する。
ニューラルな暗黙表現をインクリメンタルに構築し、更新するための融合戦略とトレーニングパイプラインを提案する。
インクリメンタルに構築された占有マップは,CPU上でもリアルタイムに取得可能であることを示す。
論文 参考訳(メタデータ) (2021-10-18T15:45:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。