論文の概要: GaussTR: Foundation Model-Aligned Gaussian Transformer for Self-Supervised 3D Spatial Understanding
- arxiv url: http://arxiv.org/abs/2412.13193v1
- Date: Tue, 17 Dec 2024 18:59:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 17:09:38.843983
- Title: GaussTR: Foundation Model-Aligned Gaussian Transformer for Self-Supervised 3D Spatial Understanding
- Title(参考訳): GaussTR: 自己監督型3次元空間理解のための基礎モデル付きガウス変換器
- Authors: Haoyi Jiang, Liu Liu, Tianheng Cheng, Xinjie Wang, Tianwei Lin, Zhizhong Su, Wenyu Liu, Xinggang Wang,
- Abstract要約: 本稿では,ガウス変換器であるガウスTRを導入し,自己教師付き3次元空間理解を推し進める。
GaussTRはTransformerアーキテクチャを採用し、フィードフォワード方式でシーンを表現する3Dガウスのスパースセットを予測する。
Occ3D-nuScenesデータセットの実証評価では、ガウスTRの最先端のゼロショット性能が示されている。
- 参考スコア(独自算出の注目度): 44.68350305790145
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D Semantic Occupancy Prediction is fundamental for spatial understanding as it provides a comprehensive semantic cognition of surrounding environments. However, prevalent approaches primarily rely on extensive labeled data and computationally intensive voxel-based modeling, restricting the scalability and generalizability of 3D representation learning. In this paper, we introduce GaussTR, a novel Gaussian Transformer that leverages alignment with foundation models to advance self-supervised 3D spatial understanding. GaussTR adopts a Transformer architecture to predict sparse sets of 3D Gaussians that represent scenes in a feed-forward manner. Through aligning rendered Gaussian features with diverse knowledge from pre-trained foundation models, GaussTR facilitates the learning of versatile 3D representations and enables open-vocabulary occupancy prediction without explicit annotations. Empirical evaluations on the Occ3D-nuScenes dataset showcase GaussTR's state-of-the-art zero-shot performance, achieving 11.70 mIoU while reducing training duration by approximately 50%. These experimental results highlight the significant potential of GaussTR for scalable and holistic 3D spatial understanding, with promising implications for autonomous driving and embodied agents. Code is available at https://github.com/hustvl/GaussTR.
- Abstract(参考訳): 3Dセマンティック占領予測は,周囲環境の包括的セマンティック認知を提供するため,空間的理解に不可欠である。
しかし、一般的なアプローチは、主にラベル付きデータと計算集約的なボクセルベースモデリングに依存し、3D表現学習のスケーラビリティと一般化性を制限する。
本稿では,基礎モデルとのアライメントを利用して自己教師付き3次元空間理解を促進する新しいガウス変換器であるガウスTRを紹介する。
GaussTRはTransformerアーキテクチャを採用し、フィードフォワード方式でシーンを表現する3Dガウスのスパースセットを予測する。
予測されたガウス的特徴と事前訓練された基礎モデルからの多様な知識を整合させることにより、ガウスTRは多目的な3D表現の学習を促進し、明示的なアノテーションなしでオープンな語彙の占有予測を可能にする。
Occ3D-nuScenesデータセットの実証評価では、ガウスTRの最先端のゼロショット性能を示し、トレーニング期間を約50%短縮しながら11.70 mIoUを達成した。
これらの実験結果は、スケーラブルで総合的な3次元空間理解のためのGaussTRの有意義な可能性を強調し、自律運転とエンボディエージェントに有望な意味を持つ。
コードはhttps://github.com/hustvl/GaussTRで入手できる。
関連論文リスト
- Manboformer: Learning Gaussian Representations via Spatial-temporal Attention Mechanism [0.3277163122167433]
ボクセルベースのグリッド予測と比較して、自律運転のための3Dセマンティック占有予測の分野において、ガウシアンフォーマーは3Dガウシアンを用いてオブジェクトに基づくスパースな3Dセマンティックガウシアンシーンを記述することを提案した。
実験の結果,本手法で要求されるガウス関数は,元の高密度グリッドネットワークのクエリ分解能よりも大きく,性能が損なわれていることがわかった。
論文 参考訳(メタデータ) (2025-03-06T09:40:46Z) - GaussianAD: Gaussian-Centric End-to-End Autonomous Driving [23.71316979650116]
視覚に基づく自動運転は、十分な性能と低コストのために大きな可能性を秘めている。
既存のほとんどの方法は、決定のために密度の高い表現(例えば鳥の眼図)やスパース表現(例箱)を採用する。
本稿では、ガウス中心のエンドツーエンド自動運転フレームワークを探求し、3Dセマンティックガウスを利用して、そのシーンを広義に記述する。
論文 参考訳(メタデータ) (2024-12-13T18:59:30Z) - GaussianFormer-2: Probabilistic Gaussian Superposition for Efficient 3D Occupancy Prediction [55.60972844777044]
3Dセマンティック占有予測は、堅牢な視覚中心の自律運転において重要な課題である。
既存のほとんどの手法は、密度の高いグリッドベースのシーン表現を利用しており、運転シーンの空間的空間性を見渡している。
本稿では,各ガウス分布をその周辺領域の確率分布として解釈する確率論的ガウス重ね合わせモデルを提案する。
論文 参考訳(メタデータ) (2024-12-05T17:59:58Z) - L3DG: Latent 3D Gaussian Diffusion [74.36431175937285]
L3DGは3次元ガウス拡散定式化による3次元ガウスの3次元モデリングのための最初のアプローチである。
我々は、部屋の大きさのシーンで効率的に操作するために、スパース畳み込みアーキテクチャーを用いている。
3Dガウス表現を利用することで、生成されたシーンを任意の視点からリアルタイムでレンダリングすることができる。
論文 参考訳(メタデータ) (2024-10-17T13:19:32Z) - Atlas Gaussians Diffusion for 3D Generation [37.68480030996363]
潜在拡散モデルは、新しい3D生成技術の開発に有効であることが証明されている。
鍵となる課題は、潜在空間と3D空間を結びつける高忠実で効率的な表現を設計することである。
我々は、フィードフォワードネイティブな3D生成のための新しい表現であるAtlas Gaussiansを紹介する。
論文 参考訳(メタデータ) (2024-08-23T13:27:27Z) - GSGAN: Adversarial Learning for Hierarchical Generation of 3D Gaussian Splats [20.833116566243408]
本稿では,Gaussianを3D GANの3次元表現として利用し,その効率的かつ明示的な特徴を活用する。
生成したガウスの位置とスケールを効果的に正規化する階層的多スケールガウス表現を持つジェネレータアーキテクチャを導入する。
実験結果から,最先端の3D一貫したGANと比較して,レンダリング速度(x100)が大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-06-05T05:52:20Z) - GaussianFormer: Scene as Gaussians for Vision-Based 3D Semantic Occupancy Prediction [70.65250036489128]
3Dのセマンティック占有予測は,周囲のシーンの3Dの微細な形状とセマンティックスを得ることを目的としている。
本稿では,3Dシーンを3Dセマンティック・ガウシアンで表現するオブジェクト中心表現を提案する。
GaussianFormerは17.8%から24.8%のメモリ消費しか持たない最先端のメソッドで同等のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-27T17:59:51Z) - GaussianCube: A Structured and Explicit Radiance Representation for 3D Generative Modeling [55.05713977022407]
構造的かつ完全明快な放射率表現を導入し、3次元生成モデリングを大幅に促進する。
我々はまず,新しい密度制約付きガウス適合アルゴリズムを用いてガウスキューブを導出する。
非条件およびクラス条件オブジェクト生成、デジタルアバター生成、テキスト・トゥ・3Dによる実験は、我々のモデル合成が最先端の生成結果を達成することを示す。
論文 参考訳(メタデータ) (2024-03-28T17:59:50Z) - Mesh-based Gaussian Splatting for Real-time Large-scale Deformation [58.18290393082119]
ユーザがリアルタイムで大きな変形で暗黙の表現を直接変形または操作することは困難である。
我々は,インタラクティブな変形を可能にする新しいGSベースの手法を開発した。
提案手法は,高いフレームレートで良好なレンダリング結果を維持しつつ,高品質な再構成と効率的な変形を実現する。
論文 参考訳(メタデータ) (2024-02-07T12:36:54Z) - Sparse-view CT Reconstruction with 3D Gaussian Volumetric Representation [13.667470059238607]
Sparse-view CTは従来のCTスキャンの放射線線量を減らすための有望な戦略である。
近年、3Dガウスアンは複雑な自然シーンのモデル化に応用されている。
スパース・ビューCT再建の可能性について検討した。
論文 参考訳(メタデータ) (2023-12-25T09:47:33Z) - GIR: 3D Gaussian Inverse Rendering for Relightable Scene Factorization [62.13932669494098]
本稿では,3次元ガウス表現を用いた3次元ガウス逆レンダリング(GIR)手法を提案する。
最短固有ベクトルを用いて各3次元ガウスの正規性を計算する。
我々は3次元ガウシアン毎に方向対応の放射光を格納し、多重バウンス光輸送を近似するために二次照明をアンタングルするために、効率的なボクセルベースの間接照明追跡方式を採用する。
論文 参考訳(メタデータ) (2023-12-08T16:05:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。