論文の概要: ShelfGaussian: Shelf-Supervised Open-Vocabulary Gaussian-based 3D Scene Understanding
- arxiv url: http://arxiv.org/abs/2512.03370v1
- Date: Wed, 03 Dec 2025 02:06:09 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 11:58:12.924521
- Title: ShelfGaussian: Shelf-Supervised Open-Vocabulary Gaussian-based 3D Scene Understanding
- Title(参考訳): ShelfGaussian: オープン語彙ガウスに基づく3Dシーン理解
- Authors: Lingjun Zhao, Yandong Luo, James Hay, Lu Gan,
- Abstract要約: オープンボキャブラリ型多モードガウス型3Dシーン理解フレームワークであるShelfGaussianについて紹介する。
既存の手法は、オブジェクトをアノテーション付き3Dラベルで教師される閉集合意味ガウスとしてモデル化し、そのレンダリング能力を無視したり、純粋に2Dの自己スーパービジョンを通じてオープンセットガウス表現を学習する。
- 参考スコア(独自算出の注目度): 7.610505486431266
- License:
- Abstract: We introduce ShelfGaussian, an open-vocabulary multi-modal Gaussian-based 3D scene understanding framework supervised by off-the-shelf vision foundation models (VFMs). Gaussian-based methods have demonstrated superior performance and computational efficiency across a wide range of scene understanding tasks. However, existing methods either model objects as closed-set semantic Gaussians supervised by annotated 3D labels, neglecting their rendering ability, or learn open-set Gaussian representations via purely 2D self-supervision, leading to degraded geometry and limited to camera-only settings. To fully exploit the potential of Gaussians, we propose a Multi-Modal Gaussian Transformer that enables Gaussians to query features from diverse sensor modalities, and a Shelf-Supervised Learning Paradigm that efficiently optimizes Gaussians with VFM features jointly at 2D image and 3D scene levels. We evaluate ShelfGaussian on various perception and planning tasks. Experiments on Occ3D-nuScenes demonstrate its state-of-the-art zero-shot semantic occupancy prediction performance. ShelfGaussian is further evaluated on an unmanned ground vehicle (UGV) to assess its in the-wild performance across diverse urban scenarios. Project website: https://lunarlab-gatech.github.io/ShelfGaussian/.
- Abstract(参考訳): 既成の視覚基盤モデル(VFM)によって制御されるオープン語彙多モードガウスに基づく3Dシーン理解フレームワークであるShelfGaussianを紹介した。
ガウス法は様々な場面理解タスクにおいて優れた性能と計算効率を示した。
しかし、既存の手法では、オブジェクトを3Dラベルで教師されるクローズドセットのセマンティックガウスとしてモデル化し、レンダリング能力を無視したり、純粋に2Dの自己スーパービジョンを通じてオープンセットのガウス表現を学習することで、幾何が劣化し、カメラのみの設定に制限される。
ガウスのポテンシャルをフル活用するために,ガウスが多様なセンサモードから特徴を問合せできるマルチモーダルガウス変換器と,2次元画像と3次元シーンレベルで協調してVFM特徴を持つガウスを効率的に最適化するシェルフ・スーパーバイズド・ラーニング・パラダイムを提案する。
シェルフガウス語を様々な知覚と計画課題で評価する。
Occ3D-nuScenesの実験は、最先端のゼロショットセマンティック占有率予測性能を示す。
シェルフガウシアンはさらに無人の地上車両(UGV)で評価され、様々な都市シナリオでその飛行性能を評価する。
プロジェクトサイト: https://lunarlab-gatech.github.io/ShelfGaussian/。
関連論文リスト
- C3G: Learning Compact 3D Representations with 2K Gaussians [55.04010158339562]
近年の手法では3次元ガウススプラッティングを再構成に用い, シーン理解のための2D-to-3D機能昇降ステージが提案されている。
提案するC3Gは,空間的にのみコンパクトな3次元ガウスを推定する新しいフィードフォワードフレームワークである。
論文 参考訳(メタデータ) (2025-12-03T17:59:05Z) - ODG: Occupancy Prediction Using Dual Gaussians [38.9869091446875]
活動予測は周囲環境のカメラ画像から微細な3次元形状と意味を推定する。
既存の方法は、シーン表現として高密度グリッドを採用するか、単一のスパースクエリを使用してシーン全体を学習する。
複雑なシーンダイナミクスを効果的に捉えるために,階層的な二重スパースガウス表現であるODGを提案する。
論文 参考訳(メタデータ) (2025-06-11T06:03:03Z) - GaussTR: Foundation Model-Aligned Gaussian Transformer for Self-Supervised 3D Spatial Understanding [44.68350305790145]
GaussTRは3次元空間理解を促進するためにガウス表現を通して基礎モデルアライメントとスパース3次元モデリングを統一する新しいトランスフォーマーフレームワークである。
Occ3D-nuScenesデータセットの実験では、GaussTRの12.27 mIoUの最先端のゼロショット性能と、トレーニング時間の40%削減が示されている。
これらの結果は、スケーラブルで総合的な3次元空間理解のためのGaussTRの有効性を強調し、自律運転とエンボディエージェントに有望な意味を持つ。
論文 参考訳(メタデータ) (2024-12-17T18:59:46Z) - GaussianFormer-2: Probabilistic Gaussian Superposition for Efficient 3D Occupancy Prediction [55.60972844777044]
3Dセマンティック占有予測は、堅牢な視覚中心の自律運転において重要な課題である。
既存のほとんどの手法は、密度の高いグリッドベースのシーン表現を利用しており、運転シーンの空間的空間性を見渡している。
本稿では,各ガウス分布をその周辺領域の確率分布として解釈する確率論的ガウス重ね合わせモデルを提案する。
論文 参考訳(メタデータ) (2024-12-05T17:59:58Z) - Dynamic Gaussian Marbles for Novel View Synthesis of Casual Monocular Videos [58.22272760132996]
既存の4次元ガウス法は単分子配置が制約されていないため、この設定で劇的に失敗することを示す。
単分子配置の難易度を目標とした3つのコア修正からなる動的ガウス大理石を提案する。
Nvidia Dynamic ScenesデータセットとDyCheck iPhoneデータセットを評価し,Gaussian Marblesが他のGaussianベースラインを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2024-06-26T19:37:07Z) - GaussianFormer: Scene as Gaussians for Vision-Based 3D Semantic Occupancy Prediction [70.65250036489128]
3Dのセマンティック占有予測は,周囲のシーンの3Dの微細な形状とセマンティックスを得ることを目的としている。
本稿では,3Dシーンを3Dセマンティック・ガウシアンで表現するオブジェクト中心表現を提案する。
GaussianFormerは17.8%から24.8%のメモリ消費しか持たない最先端のメソッドで同等のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-27T17:59:51Z) - GIR: 3D Gaussian Inverse Rendering for Relightable Scene Factorization [62.13932669494098]
本稿では,3次元ガウス表現を用いた3次元ガウス逆レンダリング(GIR)手法を提案する。
最短固有ベクトルを用いて各3次元ガウスの正規性を計算する。
我々は3次元ガウシアン毎に方向対応の放射光を格納し、多重バウンス光輸送を近似するために二次照明をアンタングルするために、効率的なボクセルベースの間接照明追跡方式を採用する。
論文 参考訳(メタデータ) (2023-12-08T16:05:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。