論文の概要: GaussTR: Foundation Model-Aligned Gaussian Transformer for Self-Supervised 3D Spatial Understanding
- arxiv url: http://arxiv.org/abs/2412.13193v1
- Date: Tue, 17 Dec 2024 18:59:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:58:16.888084
- Title: GaussTR: Foundation Model-Aligned Gaussian Transformer for Self-Supervised 3D Spatial Understanding
- Title(参考訳): GaussTR: 自己監督型3次元空間理解のための基礎モデル付きガウス変換器
- Authors: Haoyi Jiang, Liu Liu, Tianheng Cheng, Xinjie Wang, Tianwei Lin, Zhizhong Su, Wenyu Liu, Xinggang Wang,
- Abstract要約: 本稿では,ガウス変換器であるガウスTRを導入し,自己教師付き3次元空間理解を推し進める。
GaussTRはTransformerアーキテクチャを採用し、フィードフォワード方式でシーンを表現する3Dガウスのスパースセットを予測する。
Occ3D-nuScenesデータセットの実証評価では、ガウスTRの最先端のゼロショット性能が示されている。
- 参考スコア(独自算出の注目度): 44.68350305790145
- License:
- Abstract: 3D Semantic Occupancy Prediction is fundamental for spatial understanding as it provides a comprehensive semantic cognition of surrounding environments. However, prevalent approaches primarily rely on extensive labeled data and computationally intensive voxel-based modeling, restricting the scalability and generalizability of 3D representation learning. In this paper, we introduce GaussTR, a novel Gaussian Transformer that leverages alignment with foundation models to advance self-supervised 3D spatial understanding. GaussTR adopts a Transformer architecture to predict sparse sets of 3D Gaussians that represent scenes in a feed-forward manner. Through aligning rendered Gaussian features with diverse knowledge from pre-trained foundation models, GaussTR facilitates the learning of versatile 3D representations and enables open-vocabulary occupancy prediction without explicit annotations. Empirical evaluations on the Occ3D-nuScenes dataset showcase GaussTR's state-of-the-art zero-shot performance, achieving 11.70 mIoU while reducing training duration by approximately 50%. These experimental results highlight the significant potential of GaussTR for scalable and holistic 3D spatial understanding, with promising implications for autonomous driving and embodied agents. Code is available at https://github.com/hustvl/GaussTR.
- Abstract(参考訳): 3Dセマンティック占領予測は,周囲環境の包括的セマンティック認知を提供するため,空間的理解に不可欠である。
しかし、一般的なアプローチは、主にラベル付きデータと計算集約的なボクセルベースモデリングに依存し、3D表現学習のスケーラビリティと一般化性を制限する。
本稿では,基礎モデルとのアライメントを利用して自己教師付き3次元空間理解を促進する新しいガウス変換器であるガウスTRを紹介する。
GaussTRはTransformerアーキテクチャを採用し、フィードフォワード方式でシーンを表現する3Dガウスのスパースセットを予測する。
予測されたガウス的特徴と事前訓練された基礎モデルからの多様な知識を整合させることにより、ガウスTRは多目的な3D表現の学習を促進し、明示的なアノテーションなしでオープンな語彙の占有予測を可能にする。
Occ3D-nuScenesデータセットの実証評価では、ガウスTRの最先端のゼロショット性能を示し、トレーニング期間を約50%短縮しながら11.70 mIoUを達成した。
これらの実験結果は、スケーラブルで総合的な3次元空間理解のためのGaussTRの有意義な可能性を強調し、自律運転とエンボディエージェントに有望な意味を持つ。
コードはhttps://github.com/hustvl/GaussTRで入手できる。
関連論文リスト
- L3DG: Latent 3D Gaussian Diffusion [74.36431175937285]
L3DGは3次元ガウス拡散定式化による3次元ガウスの3次元モデリングのための最初のアプローチである。
我々は、部屋の大きさのシーンで効率的に操作するために、スパース畳み込みアーキテクチャーを用いている。
3Dガウス表現を利用することで、生成されたシーンを任意の視点からリアルタイムでレンダリングすることができる。
論文 参考訳(メタデータ) (2024-10-17T13:19:32Z) - Atlas Gaussians Diffusion for 3D Generation [37.68480030996363]
潜在拡散モデルは、新しい3D生成技術の開発に有効であることが証明されている。
鍵となる課題は、潜在空間と3D空間を結びつける高忠実で効率的な表現を設計することである。
我々は、フィードフォワードネイティブな3D生成のための新しい表現であるAtlas Gaussiansを紹介する。
論文 参考訳(メタデータ) (2024-08-23T13:27:27Z) - ShapeSplat: A Large-scale Dataset of Gaussian Splats and Their Self-Supervised Pretraining [104.34751911174196]
ShapeNetとModelNetを用いた大規模3DGSデータセットを構築した。
データセットのShapeSplatは、87のユニークなカテゴリから65Kのオブジェクトで構成されています。
textbftextitGaussian-MAEを導入し、ガウスパラメータからの表現学習の独特な利点を強調した。
論文 参考訳(メタデータ) (2024-08-20T14:49:14Z) - PUP 3D-GS: Principled Uncertainty Pruning for 3D Gaussian Splatting [59.277480452459315]
本研究では,視覚的忠実度と前景の細部を高い圧縮比で保持する原理的感度プルーニングスコアを提案する。
また,トレーニングパイプラインを変更することなく,事前訓練した任意の3D-GSモデルに適用可能な複数ラウンドプルーファインパイプラインを提案する。
論文 参考訳(メタデータ) (2024-06-14T17:53:55Z) - GSGAN: Adversarial Learning for Hierarchical Generation of 3D Gaussian Splats [20.833116566243408]
本稿では,Gaussianを3D GANの3次元表現として利用し,その効率的かつ明示的な特徴を活用する。
生成したガウスの位置とスケールを効果的に正規化する階層的多スケールガウス表現を持つジェネレータアーキテクチャを導入する。
実験結果から,最先端の3D一貫したGANと比較して,レンダリング速度(x100)が大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-06-05T05:52:20Z) - GaussianFormer: Scene as Gaussians for Vision-Based 3D Semantic Occupancy Prediction [70.65250036489128]
3Dのセマンティック占有予測は,周囲のシーンの3Dの微細な形状とセマンティックスを得ることを目的としている。
本稿では,3Dシーンを3Dセマンティック・ガウシアンで表現するオブジェクト中心表現を提案する。
GaussianFormerは17.8%から24.8%のメモリ消費しか持たない最先端のメソッドで同等のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-27T17:59:51Z) - 3DGSR: Implicit Surface Reconstruction with 3D Gaussian Splatting [58.95801720309658]
本稿では,3次元ガウス散乱(3DGS),すなわち3DGSRを用いた暗黙的表面再構成法を提案する。
重要な洞察は、暗黙の符号付き距離場(SDF)を3Dガウスに組み込んで、それらが整列され、共同最適化されるようにすることである。
実験により, 3DGSの効率とレンダリング品質を保ちながら, 高品質な3D表面再構成が可能な3DGSR法が実証された。
論文 参考訳(メタデータ) (2024-03-30T16:35:38Z) - Sparse-view CT Reconstruction with 3D Gaussian Volumetric Representation [13.667470059238607]
Sparse-view CTは従来のCTスキャンの放射線線量を減らすための有望な戦略である。
近年、3Dガウスアンは複雑な自然シーンのモデル化に応用されている。
スパース・ビューCT再建の可能性について検討した。
論文 参考訳(メタデータ) (2023-12-25T09:47:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。