論文の概要: Manboformer: Learning Gaussian Representations via Spatial-temporal Attention Mechanism
- arxiv url: http://arxiv.org/abs/2503.04863v1
- Date: Thu, 06 Mar 2025 09:40:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 12:24:02.968845
- Title: Manboformer: Learning Gaussian Representations via Spatial-temporal Attention Mechanism
- Title(参考訳): マンボフォーマー:空間的時間的注意機構によるガウス表現の学習
- Authors: Ziyue Zhao, Qining Qi, Jianfa Ma,
- Abstract要約: ボクセルベースのグリッド予測と比較して、自律運転のための3Dセマンティック占有予測の分野において、ガウシアンフォーマーは3Dガウシアンを用いてオブジェクトに基づくスパースな3Dセマンティックガウシアンシーンを記述することを提案した。
実験の結果,本手法で要求されるガウス関数は,元の高密度グリッドネットワークのクエリ分解能よりも大きく,性能が損なわれていることがわかった。
- 参考スコア(独自算出の注目度): 0.3277163122167433
- License:
- Abstract: Compared with voxel-based grid prediction, in the field of 3D semantic occupation prediction for autonomous driving, GaussianFormer proposed using 3D Gaussian to describe scenes with sparse 3D semantic Gaussian based on objects is another scheme with lower memory requirements. Each 3D Gaussian function represents a flexible region of interest and its semantic features, which are iteratively refined by the attention mechanism. In the experiment, it is found that the Gaussian function required by this method is larger than the query resolution of the original dense grid network, resulting in impaired performance. Therefore, we consider optimizing GaussianFormer by using unused temporal information. We learn the Spatial-Temporal Self-attention Mechanism from the previous grid-given occupation network and improve it to GaussianFormer. The experiment was conducted with the NuScenes dataset, and the experiment is currently underway.
- Abstract(参考訳): ボクセルベースのグリッド予測と比較して、自律運転のための3Dセマンティック占有予測の分野において、ガウシアンフォーマーは3Dガウシアンを用いてオブジェクトに基づくスパースな3Dセマンティックガウシアンシーンを記述することを提案した。
それぞれの3次元ガウス関数は、注意機構によって反復的に洗練される、フレキシブルな関心領域とその意味的特徴を表す。
実験の結果,本手法で要求されるガウス関数は,元の高密度グリッドネットワークのクエリ分解能よりも大きく,性能が損なわれていることがわかった。
そこで本稿では,未使用の時間情報を用いてガウス形式を最適化することを検討する。
我々は,前回のグリッドギビング占領ネットワークから空間的自己意識機構を学習し,ガウスフォーマーに改良する。
実験はNuScenesデータセットで行われ、現在進行中である。
関連論文リスト
- GaussTR: Foundation Model-Aligned Gaussian Transformer for Self-Supervised 3D Spatial Understanding [44.68350305790145]
本稿では,ガウス変換器であるガウスTRを導入し,自己教師付き3次元空間理解を推し進める。
GaussTRはTransformerアーキテクチャを採用し、フィードフォワード方式でシーンを表現する3Dガウスのスパースセットを予測する。
Occ3D-nuScenesデータセットの実証評価では、ガウスTRの最先端のゼロショット性能が示されている。
論文 参考訳(メタデータ) (2024-12-17T18:59:46Z) - GaussianAD: Gaussian-Centric End-to-End Autonomous Driving [23.71316979650116]
視覚に基づく自動運転は、十分な性能と低コストのために大きな可能性を秘めている。
既存のほとんどの方法は、決定のために密度の高い表現(例えば鳥の眼図)やスパース表現(例箱)を採用する。
本稿では、ガウス中心のエンドツーエンド自動運転フレームワークを探求し、3Dセマンティックガウスを利用して、そのシーンを広義に記述する。
論文 参考訳(メタデータ) (2024-12-13T18:59:30Z) - GaussianFormer-2: Probabilistic Gaussian Superposition for Efficient 3D Occupancy Prediction [55.60972844777044]
3Dセマンティック占有予測は、堅牢な視覚中心の自律運転において重要な課題である。
既存のほとんどの手法は、密度の高いグリッドベースのシーン表現を利用しており、運転シーンの空間的空間性を見渡している。
本稿では,各ガウス分布をその周辺領域の確率分布として解釈する確率論的ガウス重ね合わせモデルを提案する。
論文 参考訳(メタデータ) (2024-12-05T17:59:58Z) - ShapeSplat: A Large-scale Dataset of Gaussian Splats and Their Self-Supervised Pretraining [104.34751911174196]
ShapeNetとModelNetを用いた大規模3DGSデータセットを構築した。
データセットのShapeSplatは、87のユニークなカテゴリから65Kのオブジェクトで構成されています。
textbftextitGaussian-MAEを導入し、ガウスパラメータからの表現学習の独特な利点を強調した。
論文 参考訳(メタデータ) (2024-08-20T14:49:14Z) - R$^2$-Gaussian: Rectifying Radiative Gaussian Splatting for Tomographic Reconstruction [53.19869886963333]
3次元ガウススプラッティング(3DGS)は画像のレンダリングと表面再構成において有望な結果を示した。
本稿では,Sparse-viewトモグラフィ再構成のための3DGSベースのフレームワークであるR2$-Gaussianを紹介する。
論文 参考訳(メタデータ) (2024-05-31T08:39:02Z) - GaussianFormer: Scene as Gaussians for Vision-Based 3D Semantic Occupancy Prediction [70.65250036489128]
3Dのセマンティック占有予測は,周囲のシーンの3Dの微細な形状とセマンティックスを得ることを目的としている。
本稿では,3Dシーンを3Dセマンティック・ガウシアンで表現するオブジェクト中心表現を提案する。
GaussianFormerは17.8%から24.8%のメモリ消費しか持たない最先端のメソッドで同等のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-27T17:59:51Z) - GaussianCube: A Structured and Explicit Radiance Representation for 3D Generative Modeling [55.05713977022407]
構造的かつ完全明快な放射率表現を導入し、3次元生成モデリングを大幅に促進する。
我々はまず,新しい密度制約付きガウス適合アルゴリズムを用いてガウスキューブを導出する。
非条件およびクラス条件オブジェクト生成、デジタルアバター生成、テキスト・トゥ・3Dによる実験は、我々のモデル合成が最先端の生成結果を達成することを示す。
論文 参考訳(メタデータ) (2024-03-28T17:59:50Z) - Mesh-based Gaussian Splatting for Real-time Large-scale Deformation [58.18290393082119]
ユーザがリアルタイムで大きな変形で暗黙の表現を直接変形または操作することは困難である。
我々は,インタラクティブな変形を可能にする新しいGSベースの手法を開発した。
提案手法は,高いフレームレートで良好なレンダリング結果を維持しつつ,高品質な再構成と効率的な変形を実現する。
論文 参考訳(メタデータ) (2024-02-07T12:36:54Z) - GaussianShader: 3D Gaussian Splatting with Shading Functions for
Reflective Surfaces [45.15827491185572]
反射面を持つシーンにおけるニューラルレンダリングを強化するために, 簡易シェーディング機能を3次元ガウスに応用する新しい手法を提案する。
実験の結果、ガウシアンシェーダーは効率と視覚的品質のバランスを保っていることがわかった。
論文 参考訳(メタデータ) (2023-11-29T17:22:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。