論文の概要: GraphGSOcc: Semantic and Geometric Graph Transformer for 3D Gaussian Splating-based Occupancy Prediction
- arxiv url: http://arxiv.org/abs/2506.14825v1
- Date: Fri, 13 Jun 2025 06:09:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.403432
- Title: GraphGSOcc: Semantic and Geometric Graph Transformer for 3D Gaussian Splating-based Occupancy Prediction
- Title(参考訳): GraphGSOcc:3次元ガウス平滑化による職業予測のための意味的および幾何学的グラフ変換器
- Authors: Ke Song, Yunhe Wu, Chunchit Siu, Huiyuan Xiong,
- Abstract要約: 本稿では,3次元ガウススプレイティングに基づく占領予測のための意味グラフと幾何学グラフを組み合わせた新しいフレームワークを提案する。
GraphGSOccモデルは24.10%のmIoUを実現し、GPUメモリを6.1GBに削減し、1.97%のmIoU改善と13.7%のメモリ削減を示した。
- 参考スコア(独自算出の注目度): 2.3239379129613535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Addressing the task of 3D semantic occupancy prediction for autonomous driving, we tackle two key issues in existing 3D Gaussian Splating (3DGS) methods: (1) unified feature aggregation neglecting semantic correlations among similar categories and across regions, and (2) boundary ambiguities caused by the lack of geometric constraints in MLP iterative optimization. We propose the GraphGSOcc model, a novel framework that combines semantic and geometric graph Transformer for 3D Gaussian Splating-based Occupancy Prediction. We propose the Dual Gaussians Graph Attenntion, which dynamically constructs dual graph structures: a geometric graph adaptively calculating KNN search radii based on Gaussian poses, enabling large-scale Gaussians to aggregate features from broader neighborhoods while compact Gaussians focus on local geometric consistency; a semantic graph retaining top-M highly correlated nodes via cosine similarity to explicitly encode semantic relationships within and across instances. Coupled with the Multi-scale Graph Attention framework, fine-grained attention at lower layers optimizes boundary details, while coarse-grained attention at higher layers models object-level topology. Experiments on the SurroundOcc dataset achieve an mIoU of 24.10%, reducing GPU memory to 6.1 GB, demonstrating a 1.97% mIoU improvement and 13.7% memory reduction compared to GaussianWorld
- Abstract(参考訳): 自律運転における3Dセマンティック占有予測の課題に対処するため,既存の3Dガウス・スプレイティング(3DGS)手法において,(1)類似のカテゴリと地域間の意味的相関を無視する統合的特徴集約,(2)MLP反復最適化における幾何学的制約の欠如による境界曖昧さの2つの課題に対処する。
本稿では,3次元ガウススプレイティングに基づくOccupancy Predictionのための意味グラフ変換器と幾何学グラフ変換器を組み合わせた新しいフレームワークであるGraphGSOccモデルを提案する。
二つのグラフ構造を動的に構築するDual Gaussian Graph Attenntionを提案する: ガウスのポーズに基づいてKNN探索ラジイを適応的に計算し、ガウスの大規模化を可能にし、ガウスのコンパクト化は局所的な幾何学的整合性に注目し、コサイン類似性を介して上位Mの高相関ノードを保持するセマンティックグラフは、インスタンス内およびインスタンス間の意味的関係を明示的にエンコードする。
マルチスケールグラフ注意フレームワークと組み合わせて、下位層でのきめ細かい注意は境界の詳細を最適化し、上位層での粗い注意はオブジェクトレベルのトポロジをモデル化する。
SurroundOccデータセットの実験では、24.10%のmIoUを実現し、GPUメモリを6.1GBに削減し、1.97%のmIoUの改善と13.7%のメモリ削減を実現した。
関連論文リスト
- GaussianGraph: 3D Gaussian-based Scene Graph Generation for Open-world Scene Understanding [20.578106363482018]
本稿では,セマンティッククラスタリングとシーングラフ生成を統合し,3DGSに基づくシーン理解を強化する新しいフレームワークを提案する。
本稿では,シーンスケールや特徴分布に動的に対応し,特徴圧縮を回避する"Control-Follow"クラスタリング戦略を提案する。
2次元基礎モデルから抽出したオブジェクト属性と空間関係を統合することでシーン表現を充実させる。
論文 参考訳(メタデータ) (2025-03-06T02:36:59Z) - TSGaussian: Semantic and Depth-Guided Target-Specific Gaussian Splatting from Sparse Views [18.050257821756148]
TSGaussianは、新しいビュー合成タスクにおける幾何学的劣化を避けるために、意味的制約と深さ事前の制約を組み合わせる新しいフレームワークである。
提案手法は,バックグラウンドアロケーションを最小化しながら,指定された目標に対する計算資源の優先順位付けを行う。
大規模な実験により、TSGaussianは3つの標準データセット上で最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-12-13T11:26:38Z) - PixelGaussian: Generalizable 3D Gaussian Reconstruction from Arbitrary Views [116.10577967146762]
PixelGaussianは、任意の視点から一般化可能な3Dガウス再構成を学習するための効率的なフレームワークである。
提案手法は,様々な視点によく一般化した最先端性能を実現する。
論文 参考訳(メタデータ) (2024-10-24T17:59:58Z) - ShapeSplat: A Large-scale Dataset of Gaussian Splats and Their Self-Supervised Pretraining [104.34751911174196]
ShapeNetとModelNetを用いた大規模3DGSデータセットを構築した。
データセットのShapeSplatは、87のユニークなカテゴリから65Kのオブジェクトで構成されています。
textbftextitGaussian-MAEを導入し、ガウスパラメータからの表現学習の独特な利点を強調した。
論文 参考訳(メタデータ) (2024-08-20T14:49:14Z) - Effective Rank Analysis and Regularization for Enhanced 3D Gaussian Splatting [33.01987451251659]
3D Gaussian Splatting(3DGS)は、高品質な3D再構成によるリアルタイムレンダリングが可能な有望な技術として登場した。
その可能性にもかかわらず、3DGSは針状アーティファクト、準最適ジオメトリー、不正確な正常といった課題に遭遇する。
正規化として有効ランクを導入し、ガウスの構造を制約する。
論文 参考訳(メタデータ) (2024-06-17T15:51:59Z) - R$^2$-Gaussian: Rectifying Radiative Gaussian Splatting for Tomographic Reconstruction [53.19869886963333]
3次元ガウススプラッティング(3DGS)は画像のレンダリングと表面再構成において有望な結果を示した。
本稿では,Sparse-viewトモグラフィ再構成のための3DGSベースのフレームワークであるR2$-Gaussianを紹介する。
論文 参考訳(メタデータ) (2024-05-31T08:39:02Z) - GaussianFormer: Scene as Gaussians for Vision-Based 3D Semantic Occupancy Prediction [70.65250036489128]
3Dのセマンティック占有予測は,周囲のシーンの3Dの微細な形状とセマンティックスを得ることを目的としている。
本稿では,3Dシーンを3Dセマンティック・ガウシアンで表現するオブジェクト中心表現を提案する。
GaussianFormerは17.8%から24.8%のメモリ消費しか持たない最先端のメソッドで同等のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-27T17:59:51Z) - Graph Transformer GANs with Graph Masked Modeling for Architectural
Layout Generation [153.92387500677023]
本稿では,グラフノード関係を効果的に学習するために,GTGAN(Graph Transformer Generative Adversarial Network)を提案する。
提案したグラフ変換器エンコーダは、局所的およびグローバルな相互作用をモデル化するために、Transformer内のグラフ畳み込みと自己アテンションを組み合わせる。
また,グラフ表現学習のための自己指導型事前学習手法を提案する。
論文 参考訳(メタデータ) (2024-01-15T14:36:38Z) - Self-supervised Geometric Perception [96.89966337518854]
自己教師付き幾何知覚(self-supervised geometric perception)は、基底幾何モデルラベルなしで対応マッチングのための特徴記述子を学ぶためのフレームワークである。
また,SGPは,地上トラスラベルを用いて訓練した教師付きオークルよりも同等か優れる最先端性能を達成できることを示す。
論文 参考訳(メタデータ) (2021-03-04T15:34:43Z) - Pseudoinverse Graph Convolutional Networks: Fast Filters Tailored for
Large Eigengaps of Dense Graphs and Hypergraphs [0.0]
Graph Convolutional Networks (GCNs) は、グラフベースのデータセットで半教師付き分類を行うツールとして成功している。
本稿では,三部フィルタ空間が高密度グラフを対象とする新しいGCN変種を提案する。
論文 参考訳(メタデータ) (2020-08-03T08:48:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。