論文の概要: GaussTR: Foundation Model-Aligned Gaussian Transformer for Self-Supervised 3D Spatial Understanding
- arxiv url: http://arxiv.org/abs/2412.13193v2
- Date: Mon, 24 Mar 2025 12:45:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 16:32:16.371302
- Title: GaussTR: Foundation Model-Aligned Gaussian Transformer for Self-Supervised 3D Spatial Understanding
- Title(参考訳): GaussTR: 自己監督型3次元空間理解のための基礎モデル付きガウス変換器
- Authors: Haoyi Jiang, Liu Liu, Tianheng Cheng, Xinjie Wang, Tianwei Lin, Zhizhong Su, Wenyu Liu, Xinggang Wang,
- Abstract要約: GaussTRは3次元空間理解を促進するためにガウス表現を通して基礎モデルアライメントとスパース3次元モデリングを統一する新しいトランスフォーマーフレームワークである。
Occ3D-nuScenesデータセットの実験では、GaussTRの12.27 mIoUの最先端のゼロショット性能と、トレーニング時間の40%削減が示されている。
これらの結果は、スケーラブルで総合的な3次元空間理解のためのGaussTRの有効性を強調し、自律運転とエンボディエージェントに有望な意味を持つ。
- 参考スコア(独自算出の注目度): 44.68350305790145
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D Semantic Occupancy Prediction is fundamental for spatial understanding, yet existing approaches face challenges in scalability and generalization due to their reliance on extensive labeled data and computationally intensive voxel-wise representations. In this paper, we introduce GaussTR, a novel Gaussian-based Transformer framework that unifies sparse 3D modeling with foundation model alignment through Gaussian representations to advance 3D spatial understanding. GaussTR predicts sparse sets of Gaussians in a feed-forward manner to represent 3D scenes. By splatting the Gaussians into 2D views and aligning the rendered features with foundation models, GaussTR facilitates self-supervised 3D representation learning and enables open-vocabulary semantic occupancy prediction without requiring explicit annotations. Empirical experiments on the Occ3D-nuScenes dataset demonstrate GaussTR's state-of-the-art zero-shot performance of 12.27 mIoU, along with a 40% reduction in training time. These results highlight the efficacy of GaussTR for scalable and holistic 3D spatial understanding, with promising implications in autonomous driving and embodied agents. The code is available at https://github.com/hustvl/GaussTR.
- Abstract(参考訳): 3DSemantic Occupancy Predictionは空間的理解に欠かせないものであるが、既存のアプローチは、広範囲なラベル付きデータと計算集約的なボクセル表現に依存するため、スケーラビリティと一般化の課題に直面している。
本稿では,ガウス空間理解を前進させるため,ガウス表現による基礎モデルアライメントを伴うスパース3次元モデリングを統一する新しいガウス変換フレームワークであるガウスTRを紹介する。
GaussTRは、3Dシーンを表現するためにフィードフォワードでガウスのスパースセットを予測する。
ガウシアンを2Dビューに分割し、レンダリングされた特徴を基礎モデルと整合させることで、ガウシTRは自己教師付き3D表現学習を促進し、明示的なアノテーションを必要とせず、オープンな語彙のセマンティック占有予測を可能にする。
Occ3D-nuScenesデータセットの実証実験では、ガウスTRの12.27 mIoUの最先端のゼロショット性能と、トレーニング時間の40%削減が示されている。
これらの結果は、スケーラブルで総合的な3次元空間理解のためのGaussTRの有効性を強調し、自律運転とエンボディエージェントに有望な意味を持つ。
コードはhttps://github.com/hustvl/GaussTRで公開されている。
関連論文リスト
- Manboformer: Learning Gaussian Representations via Spatial-temporal Attention Mechanism [0.3277163122167433]
ボクセルベースのグリッド予測と比較して、自律運転のための3Dセマンティック占有予測の分野において、ガウシアンフォーマーは3Dガウシアンを用いてオブジェクトに基づくスパースな3Dセマンティックガウシアンシーンを記述することを提案した。
実験の結果,本手法で要求されるガウス関数は,元の高密度グリッドネットワークのクエリ分解能よりも大きく,性能が損なわれていることがわかった。
論文 参考訳(メタデータ) (2025-03-06T09:40:46Z) - GaussianAD: Gaussian-Centric End-to-End Autonomous Driving [23.71316979650116]
視覚に基づく自動運転は、十分な性能と低コストのために大きな可能性を秘めている。
既存のほとんどの方法は、決定のために密度の高い表現(例えば鳥の眼図)やスパース表現(例箱)を採用する。
本稿では、ガウス中心のエンドツーエンド自動運転フレームワークを探求し、3Dセマンティックガウスを利用して、そのシーンを広義に記述する。
論文 参考訳(メタデータ) (2024-12-13T18:59:30Z) - GaussianFormer-2: Probabilistic Gaussian Superposition for Efficient 3D Occupancy Prediction [55.60972844777044]
3Dセマンティック占有予測は、堅牢な視覚中心の自律運転において重要な課題である。
既存のほとんどの手法は、密度の高いグリッドベースのシーン表現を利用しており、運転シーンの空間的空間性を見渡している。
本稿では,各ガウス分布をその周辺領域の確率分布として解釈する確率論的ガウス重ね合わせモデルを提案する。
論文 参考訳(メタデータ) (2024-12-05T17:59:58Z) - L3DG: Latent 3D Gaussian Diffusion [74.36431175937285]
L3DGは3次元ガウス拡散定式化による3次元ガウスの3次元モデリングのための最初のアプローチである。
我々は、部屋の大きさのシーンで効率的に操作するために、スパース畳み込みアーキテクチャーを用いている。
3Dガウス表現を利用することで、生成されたシーンを任意の視点からリアルタイムでレンダリングすることができる。
論文 参考訳(メタデータ) (2024-10-17T13:19:32Z) - Atlas Gaussians Diffusion for 3D Generation [37.68480030996363]
潜在拡散モデルは、新しい3D生成技術の開発に有効であることが証明されている。
鍵となる課題は、潜在空間と3D空間を結びつける高忠実で効率的な表現を設計することである。
我々は、フィードフォワードネイティブな3D生成のための新しい表現であるAtlas Gaussiansを紹介する。
論文 参考訳(メタデータ) (2024-08-23T13:27:27Z) - GSGAN: Adversarial Learning for Hierarchical Generation of 3D Gaussian Splats [20.833116566243408]
本稿では,Gaussianを3D GANの3次元表現として利用し,その効率的かつ明示的な特徴を活用する。
生成したガウスの位置とスケールを効果的に正規化する階層的多スケールガウス表現を持つジェネレータアーキテクチャを導入する。
実験結果から,最先端の3D一貫したGANと比較して,レンダリング速度(x100)が大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-06-05T05:52:20Z) - GaussianFormer: Scene as Gaussians for Vision-Based 3D Semantic Occupancy Prediction [70.65250036489128]
3Dのセマンティック占有予測は,周囲のシーンの3Dの微細な形状とセマンティックスを得ることを目的としている。
本稿では,3Dシーンを3Dセマンティック・ガウシアンで表現するオブジェクト中心表現を提案する。
GaussianFormerは17.8%から24.8%のメモリ消費しか持たない最先端のメソッドで同等のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-27T17:59:51Z) - GaussianCube: A Structured and Explicit Radiance Representation for 3D Generative Modeling [55.05713977022407]
構造的かつ完全明快な放射率表現を導入し、3次元生成モデリングを大幅に促進する。
我々はまず,新しい密度制約付きガウス適合アルゴリズムを用いてガウスキューブを導出する。
非条件およびクラス条件オブジェクト生成、デジタルアバター生成、テキスト・トゥ・3Dによる実験は、我々のモデル合成が最先端の生成結果を達成することを示す。
論文 参考訳(メタデータ) (2024-03-28T17:59:50Z) - Mesh-based Gaussian Splatting for Real-time Large-scale Deformation [58.18290393082119]
ユーザがリアルタイムで大きな変形で暗黙の表現を直接変形または操作することは困難である。
我々は,インタラクティブな変形を可能にする新しいGSベースの手法を開発した。
提案手法は,高いフレームレートで良好なレンダリング結果を維持しつつ,高品質な再構成と効率的な変形を実現する。
論文 参考訳(メタデータ) (2024-02-07T12:36:54Z) - Sparse-view CT Reconstruction with 3D Gaussian Volumetric Representation [13.667470059238607]
Sparse-view CTは従来のCTスキャンの放射線線量を減らすための有望な戦略である。
近年、3Dガウスアンは複雑な自然シーンのモデル化に応用されている。
スパース・ビューCT再建の可能性について検討した。
論文 参考訳(メタデータ) (2023-12-25T09:47:33Z) - GIR: 3D Gaussian Inverse Rendering for Relightable Scene Factorization [62.13932669494098]
本稿では,3次元ガウス表現を用いた3次元ガウス逆レンダリング(GIR)手法を提案する。
最短固有ベクトルを用いて各3次元ガウスの正規性を計算する。
我々は3次元ガウシアン毎に方向対応の放射光を格納し、多重バウンス光輸送を近似するために二次照明をアンタングルするために、効率的なボクセルベースの間接照明追跡方式を採用する。
論文 参考訳(メタデータ) (2023-12-08T16:05:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。