論文の概要: GaussianCross: Cross-modal Self-supervised 3D Representation Learning via Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2508.02172v1
- Date: Mon, 04 Aug 2025 08:12:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.243692
- Title: GaussianCross: Cross-modal Self-supervised 3D Representation Learning via Gaussian Splatting
- Title(参考訳): Gaussian Cross:Gaussian Splattingによるクロスモーダルな自己教師型3D表現学習
- Authors: Lei Yao, Yi Wang, Yi Zhang, Moyun Liu, Lap-Pui Chau,
- Abstract要約: 提案するGaussianCrossは, クロスモーダルな自己教師型3D表現学習アーキテクチャである。
GaussianCross はスケール一貫性のない3次元点雲を統一された立方体正規化ガウス表現にシームレスに変換する。
最先端の手法と比較して線形探索(0.1%パラメータ)と限られたデータトレーニング(1%のシーン)により優れた性能を発揮する。
- 参考スコア(独自算出の注目度): 16.179607149692398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The significance of informative and robust point representations has been widely acknowledged for 3D scene understanding. Despite existing self-supervised pre-training counterparts demonstrating promising performance, the model collapse and structural information deficiency remain prevalent due to insufficient point discrimination difficulty, yielding unreliable expressions and suboptimal performance. In this paper, we present GaussianCross, a novel cross-modal self-supervised 3D representation learning architecture integrating feed-forward 3D Gaussian Splatting (3DGS) techniques to address current challenges. GaussianCross seamlessly converts scale-inconsistent 3D point clouds into a unified cuboid-normalized Gaussian representation without missing details, enabling stable and generalizable pre-training. Subsequently, a tri-attribute adaptive distillation splatting module is incorporated to construct a 3D feature field, facilitating synergetic feature capturing of appearance, geometry, and semantic cues to maintain cross-modal consistency. To validate GaussianCross, we perform extensive evaluations on various benchmarks, including ScanNet, ScanNet200, and S3DIS. In particular, GaussianCross shows a prominent parameter and data efficiency, achieving superior performance through linear probing (<0.1% parameters) and limited data training (1% of scenes) compared to state-of-the-art methods. Furthermore, GaussianCross demonstrates strong generalization capabilities, improving the full fine-tuning accuracy by 9.3% mIoU and 6.1% AP$_{50}$ on ScanNet200 semantic and instance segmentation tasks, respectively, supporting the effectiveness of our approach. The code, weights, and visualizations are publicly available at \href{https://rayyoh.github.io/GaussianCross/}{https://rayyoh.github.io/GaussianCross/}.
- Abstract(参考訳): 情報的およびロバストな点表現の重要性は,3次元シーン理解において広く認識されている。
有望な性能を示す既存の自己指導型事前訓練にもかかわらず、モデル崩壊と構造情報不足は、ポイント識別の難しさが不十分であり、信頼性の低い表現と準最適性能をもたらすため、依然として一般的である。
本稿では, フィードフォワード3Dガウススプラッティング(3DGS)技術を統合した, クロスモーダルな自己教師型3D表現学習アーキテクチャであるGaussianCrossについて述べる。
GaussianCrossは、スケール一貫性のない3次元点雲を詳細を欠くことなく統一された立方体正規化ガウス表現にシームレスに変換し、安定かつ一般化可能な事前学習を可能にする。
その後、三属性適応蒸留スプラッティングモジュールを組み込んで3次元特徴場を構築し、外観、形状、意味的手がかりの相乗的特徴捕捉を容易にし、相互整合性を維持する。
GaussianCrossを検証するために、ScanNet、ScanNet200、S3DISなど様々なベンチマークで広範囲に評価を行った。
特に、GaussianCrossは、最先端の手法と比較して、線形探索(0.1%パラメータ)と限られたデータトレーニング(1%のシーン)により優れた性能を発揮する。
さらに、GaussianCrossは強力な一般化機能を示し、ScanNet200セマンティックタスクとインスタンスセグメンテーションタスクにおいて、完全な微調整精度を9.3% mIoUと6.1% AP$_{50}$で改善し、このアプローチの有効性をサポートする。
コード、ウェイト、視覚化は \href{https://rayyoh.github.io/GaussianCross/}{https://rayyoh.github.io/GaussianCross/} で公開されている。
関連論文リスト
- 3DGEER: Exact and Efficient Volumetric Rendering with 3D Gaussians [15.776720879897345]
本稿では3DGEER(Exact and Efficient Volumetric Gaussian Rendering method)を紹介する。
提案手法は従来手法を一貫して上回り, リアルタイムなニューラルレンダリングにおける新しい最先端技術を確立する。
論文 参考訳(メタデータ) (2025-05-29T22:52:51Z) - GaussTR: Foundation Model-Aligned Gaussian Transformer for Self-Supervised 3D Spatial Understanding [44.68350305790145]
GaussTRは3次元空間理解を促進するためにガウス表現を通して基礎モデルアライメントとスパース3次元モデリングを統一する新しいトランスフォーマーフレームワークである。
Occ3D-nuScenesデータセットの実験では、GaussTRの12.27 mIoUの最先端のゼロショット性能と、トレーニング時間の40%削減が示されている。
これらの結果は、スケーラブルで総合的な3次元空間理解のためのGaussTRの有効性を強調し、自律運転とエンボディエージェントに有望な意味を持つ。
論文 参考訳(メタデータ) (2024-12-17T18:59:46Z) - GaussianFormer-2: Probabilistic Gaussian Superposition for Efficient 3D Occupancy Prediction [55.60972844777044]
3Dセマンティック占有予測は、堅牢な視覚中心の自律運転において重要な課題である。
既存のほとんどの手法は、密度の高いグリッドベースのシーン表現を利用しており、運転シーンの空間的空間性を見渡している。
本稿では,各ガウス分布をその周辺領域の確率分布として解釈する確率論的ガウス重ね合わせモデルを提案する。
論文 参考訳(メタデータ) (2024-12-05T17:59:58Z) - ShapeSplat: A Large-scale Dataset of Gaussian Splats and Their Self-Supervised Pretraining [104.34751911174196]
ShapeNetとModelNetを用いた大規模3DGSデータセットを構築した。
データセットのShapeSplatは、87のユニークなカテゴリから65Kのオブジェクトで構成されています。
textbftextitGaussian-MAEを導入し、ガウスパラメータからの表現学習の独特な利点を強調した。
論文 参考訳(メタデータ) (2024-08-20T14:49:14Z) - GaussianFormer: Scene as Gaussians for Vision-Based 3D Semantic Occupancy Prediction [70.65250036489128]
3Dのセマンティック占有予測は,周囲のシーンの3Dの微細な形状とセマンティックスを得ることを目的としている。
本稿では,3Dシーンを3Dセマンティック・ガウシアンで表現するオブジェクト中心表現を提案する。
GaussianFormerは17.8%から24.8%のメモリ消費しか持たない最先端のメソッドで同等のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-27T17:59:51Z) - CLIP-GS: CLIP-Informed Gaussian Splatting for View-Consistent 3D Indoor Semantic Understanding [17.440124130814166]
室内シーンのオープンな3Dセマンティック理解のためのCLIPモデルを用いた3Dガウススティング(3DGS)が注目されている。
提案するセマンティック属性コンパクト性(SAC)と3Dコヒーレント正規化(3DCR)を用いて、3次元屋内シーンのコヒーレントな意味理解を効率的に実現するCLIP-GSを提案する。
ScanNetとReplicaのデータセット上で,mIoUの21.20%と13.05%の改善を実現し,既存の最先端手法を著しく抑制する。
論文 参考訳(メタデータ) (2024-04-22T15:01:32Z) - 3DGSR: Implicit Surface Reconstruction with 3D Gaussian Splatting [58.95801720309658]
本稿では,3次元ガウス散乱(3DGS),すなわち3DGSRを用いた暗黙的表面再構成法を提案する。
重要な洞察は、暗黙の符号付き距離場(SDF)を3Dガウスに組み込んで、それらが整列され、共同最適化されるようにすることである。
実験により, 3DGSの効率とレンダリング品質を保ちながら, 高品質な3D表面再構成が可能な3DGSR法が実証された。
論文 参考訳(メタデータ) (2024-03-30T16:35:38Z) - latentSplat: Autoencoding Variational Gaussians for Fast Generalizable 3D Reconstruction [48.86083272054711]
latentSplatは3D潜在空間における意味ガウスを予測し、軽量な生成型2Dアーキテクチャで切り落としてデコードする手法である。
latentSplatは、高速でスケーラブルで高解像度なデータでありながら、復元品質と一般化におけるこれまでの成果よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-24T20:48:36Z) - Learning Segmented 3D Gaussians via Efficient Feature Unprojection for Zero-shot Neural Scene Segmentation [16.57158278095853]
ゼロショットニューラルシーンセグメンテーションはシーン理解に有効な方法である。
既存のモデル、特に効率的な3Dガウス法は、コンパクトなセグメンテーションの結果を生み出すのに苦労している。
セグメンテーションフィールドとしてFeature UnprojectionとFusionモジュールを提案する。
本モデルでは,ゼロショットセマンティックセグメンテーションタスクのベースラインを超越し,最良ベースラインよりも10%mIoU向上を図っている。
論文 参考訳(メタデータ) (2024-01-11T14:05:01Z) - GS-SLAM: Dense Visual SLAM with 3D Gaussian Splatting [51.96353586773191]
我々は,まず3次元ガウス表現を利用したtextbfGS-SLAM を提案する。
提案手法は,地図の最適化とRGB-Dレンダリングの大幅な高速化を実現するリアルタイム微分可能なスプレイティングレンダリングパイプラインを利用する。
提案手法は,Replica,TUM-RGBDデータセット上の既存の最先端リアルタイム手法と比較して,競争性能が向上する。
論文 参考訳(メタデータ) (2023-11-20T12:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。