論文の概要: Gaussian2Scene: 3D Scene Representation Learning via Self-supervised Learning with 3D Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2506.08777v2
- Date: Wed, 11 Jun 2025 08:42:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-12 16:13:48.080697
- Title: Gaussian2Scene: 3D Scene Representation Learning via Self-supervised Learning with 3D Gaussian Splatting
- Title(参考訳): Gaussian2Scene: 3D Gassian Splattingを用いた自己教師型学習による3Dシーン表現学習
- Authors: Keyi Liu, Weidong Yang, Ben Fei, Ying He,
- Abstract要約: ポイントクラウドの事前トレーニングのための自己教師付き学習(SSL)は、多くの3Dビジョンタスクの基盤となっている。
本稿では,3次元ガウススティング(3DGS)の効率性と明示性を事前学習に活用する,シーンレベルのSSLフレームワークを提案する。
- 参考スコア(独自算出の注目度): 6.678115792482272
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised learning (SSL) for point cloud pre-training has become a cornerstone for many 3D vision tasks, enabling effective learning from large-scale unannotated data. At the scene level, existing SSL methods often incorporate volume rendering into the pre-training framework, using RGB-D images as reconstruction signals to facilitate cross-modal learning. This strategy promotes alignment between 2D and 3D modalities and enables the model to benefit from rich visual cues in the RGB-D inputs. However, these approaches are limited by their reliance on implicit scene representations and high memory demands. Furthermore, since their reconstruction objectives are applied only in 2D space, they often fail to capture underlying 3D geometric structures. To address these challenges, we propose Gaussian2Scene, a novel scene-level SSL framework that leverages the efficiency and explicit nature of 3D Gaussian Splatting (3DGS) for pre-training. The use of 3DGS not only alleviates the computational burden associated with volume rendering but also supports direct 3D scene reconstruction, thereby enhancing the geometric understanding of the backbone network. Our approach follows a progressive two-stage training strategy. In the first stage, a dual-branch masked autoencoder learns both 2D and 3D scene representations. In the second stage, we initialize training with reconstructed point clouds and further supervise learning using the geometric locations of Gaussian primitives and rendered RGB images. This process reinforces both geometric and cross-modal learning. We demonstrate the effectiveness of Gaussian2Scene across several downstream 3D object detection tasks, showing consistent improvements over existing pre-training methods.
- Abstract(参考訳): ポイントクラウド事前トレーニングのための自己教師付き学習(SSL)は、多くの3Dビジョンタスクの基盤となり、大規模な無注釈データからの効果的な学習を可能にしている。
シーンレベルでは、既存のSSLメソッドはボリュームレンダリングを事前トレーニングフレームワークに組み込んで、RGB-Dイメージを再構成信号として使用し、クロスモーダル学習を容易にする。
この戦略は2次元モードと3次元モードのアライメントを促進し、RGB-D入力においてリッチな視覚的手がかりの恩恵を受けることができる。
しかし、これらのアプローチは暗黙のシーン表現と高いメモリ要求に依存しているため制限されている。
さらに、それらの再構成対象は2次元空間にのみ適用されるため、基礎となる3次元幾何学構造を捉えることができないことが多い。
これらの課題に対処するために,3Dガウス・スプレイティング(3DGS)の効率性と明示性を活用した,シーンレベルのSSLフレームワークであるGaussian2Sceneを提案する。
3DGSの使用は、ボリュームレンダリングに伴う計算負担を軽減するだけでなく、直接3Dシーン再構築をサポートし、バックボーンネットワークの幾何学的理解を高める。
私たちのアプローチは、進歩的な2段階のトレーニング戦略に従っています。
第1段階では、デュアルブランチマスク付きオートエンコーダが2Dと3Dの両方のシーン表現を学習する。
第2段階では、再構成点雲による訓練を初期化し、ガウス原始体の幾何学的位置とレンダリングされたRGB画像を用いて学習を監督する。
このプロセスは幾何学的学習とクロスモーダル学習の両方を強化する。
複数の下流3Dオブジェクト検出タスクにおけるGaussian2Sceneの有効性を実証し、既存の事前学習手法よりも一貫した改善を示す。
関連論文リスト
- Semantic Gaussians: Open-Vocabulary Scene Understanding with 3D Gaussian Splatting [27.974762304763694]
セマンティック・ガウシアン(Semantic Gaussians)は,3次元ガウシアン・スプレイティングをベースとした,新しいオープン語彙シーン理解手法である。
既存の手法とは異なり、様々な2次元意味的特徴を3次元ガウスの新たな意味的構成要素にマッピングする多目的投影手法を設計する。
我々は,高速な推論のために,生の3Dガウスから意味成分を直接予測する3Dセマンティックネットワークを構築した。
論文 参考訳(メタデータ) (2024-03-22T21:28:19Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal Pre-training Paradigm [111.16358607889609]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - SSR-2D: Semantic 3D Scene Reconstruction from 2D Images [54.46126685716471]
本研究では,3Dアノテーションを使わずにセマンティックなシーン再構成を行う中心的な3Dシーンモデリングタスクについて検討する。
提案手法の鍵となる考え方は,不完全な3次元再構成と対応するRGB-D画像の両方を用いたトレーニング可能なモデルの設計である。
本研究では,2つの大規模ベンチマークデータセットであるMatterPort3DとScanNetに対して,セマンティックシーン補完の最先端性能を実現する。
論文 参考訳(メタデータ) (2023-02-07T17:47:52Z) - Pri3D: Can 3D Priors Help 2D Representation Learning? [37.35721274841419]
近年の3次元知覚の進歩は、3次元空間の幾何学的構造を理解する上で顕著な進歩を示した。
このような幾何学的理解の進歩に触発されて,画像に基づく知覚を幾何学的制約の下で学習した表現で表現することを目指す。
マルチビューRGB-Dデータに基づくネットワークプリトレーニングのためのビュー不変なジオメトリ認識表現の学習手法を提案する。
論文 参考訳(メタデータ) (2021-04-22T17:59:30Z) - 3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。
まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。
次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。
第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文 参考訳(メタデータ) (2021-04-06T02:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。