論文の概要: RT-GS2: Real-Time Generalizable Semantic Segmentation for 3D Gaussian Representations of Radiance Fields
- arxiv url: http://arxiv.org/abs/2405.18033v1
- Date: Tue, 28 May 2024 10:34:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 19:08:25.396531
- Title: RT-GS2: Real-Time Generalizable Semantic Segmentation for 3D Gaussian Representations of Radiance Fields
- Title(参考訳): RT-GS2:Real-Time Generalizable Semantic Segmentation for 3D Gaussian Representations of Radiance Fields
- Authors: Mihnea-Bogdan Jurca, Remco Royen, Ion Giosan, Adrian Munteanu,
- Abstract要約: ガウススプラッティングを用いた最初の一般化可能なセマンティックセマンティックセグメンテーション法であるRT-GS2を紹介する。
提案手法は27.03 FPSのリアルタイム性能を実現し,既存の手法に比べて901倍の高速化を実現している。
- 参考スコア(独自算出の注目度): 6.071025178912125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Gaussian Splatting has revolutionized the world of novel view synthesis by achieving high rendering performance in real-time. Recently, studies have focused on enriching these 3D representations with semantic information for downstream tasks. In this paper, we introduce RT-GS2, the first generalizable semantic segmentation method employing Gaussian Splatting. While existing Gaussian Splatting-based approaches rely on scene-specific training, RT-GS2 demonstrates the ability to generalize to unseen scenes. Our method adopts a new approach by first extracting view-independent 3D Gaussian features in a self-supervised manner, followed by a novel View-Dependent / View-Independent (VDVI) feature fusion to enhance semantic consistency over different views. Extensive experimentation on three different datasets showcases RT-GS2's superiority over the state-of-the-art methods in semantic segmentation quality, exemplified by a 8.01% increase in mIoU on the Replica dataset. Moreover, our method achieves real-time performance of 27.03 FPS, marking an astonishing 901 times speedup compared to existing approaches. This work represents a significant advancement in the field by introducing, to the best of our knowledge, the first real-time generalizable semantic segmentation method for 3D Gaussian representations of radiance fields.
- Abstract(参考訳): ガウシアン・スプレイティングは、リアルタイムに高いレンダリング性能を達成することによって、新しいビュー合成の世界に革命をもたらした。
近年,下流タスクのセマンティック情報を用いた3次元表現の強化に焦点が当てられている。
本稿では,ガウススティングを用いた最初の一般化可能なセマンティックセマンティックセグメンテーション法であるRT-GS2を紹介する。
既存のガウスのSplattingベースのアプローチはシーン固有のトレーニングに依存しているが、RT-GS2は見えないシーンに一般化する能力を示している。
本稿では,ビュー非依存な3次元ガウス特徴を自己教師付きで抽出し,新しいビュー依存/ビュー非依存(VDVI)機能融合により,ビュー間のセマンティック一貫性を向上する手法を提案する。
3つの異なるデータセットに対する大規模な実験では、RT-GS2がセマンティックセグメンテーションの品質における最先端の手法よりも優れていることが示され、ReplicaデータセットではmIoUが8.01%増加した。
さらに,提案手法は27.03 FPSのリアルタイム性能を実現し,既存の手法に比べて901倍の高速化を実現している。
この研究は、我々の知る限り、放射場の3次元ガウス表現に対する初めてのリアルタイム一般化可能なセマンティックセマンティックセグメンテーション法を導入することで、この分野における重要な進歩を示している。
関連論文リスト
- G2SDF: Surface Reconstruction from Explicit Gaussians with Implicit SDFs [84.07233691641193]
G2SDFはニューラル暗黙の符号付き距離場をガウススプラッティングフレームワークに統合する新しいアプローチである。
G2SDFは, 3DGSの効率を維持しつつ, 従来よりも優れた品質を実現する。
論文 参考訳(メタデータ) (2024-11-25T20:07:07Z) - GPS-Gaussian+: Generalizable Pixel-wise 3D Gaussian Splatting for Real-Time Human-Scene Rendering from Sparse Views [67.34073368933814]
スパースビューカメラ設定下での高解像度画像レンダリングのための一般化可能なガウススプラッティング手法を提案する。
我々は,人間のみのデータや人景データに基づいてガウスパラメータ回帰モジュールをトレーニングし,深度推定モジュールと共同で2次元パラメータマップを3次元空間に引き上げる。
いくつかのデータセットに対する実験により、我々の手法はレンダリング速度を超越しながら最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-11-18T08:18:44Z) - LUDVIG: Learning-free Uplifting of 2D Visual features to Gaussian Splatting scenes [39.687526103092445]
単純で効果的な集約手法が優れた結果をもたらすことを示す。
本手法を汎用DINOv2機能に拡張し,グラフ拡散による3次元シーン形状を統合し,競合セグメンテーションの結果を得る。
論文 参考訳(メタデータ) (2024-10-18T13:44:29Z) - ShapeSplat: A Large-scale Dataset of Gaussian Splats and Their Self-Supervised Pretraining [104.34751911174196]
ShapeNetとModelNetを用いた大規模3DGSデータセットを構築した。
データセットのShapeSplatは、87のユニークなカテゴリから65Kのオブジェクトで構成されています。
textbftextitGaussian-MAEを導入し、ガウスパラメータからの表現学習の独特な利点を強調した。
論文 参考訳(メタデータ) (2024-08-20T14:49:14Z) - CLIP-GS: CLIP-Informed Gaussian Splatting for Real-time and View-consistent 3D Semantic Understanding [32.76277160013881]
コントラスト言語画像事前学習(CLIP)のセマンティクスをガウススプラッティングに統合するCLIP-GSを提案する。
SACはオブジェクト内の固有の統一意味論を利用して、3Dガウスのコンパクトで効果的な意味表現を学ぶ。
また,3次元モデルから得られた多視点一貫性を利用して,3次元コヒーレント自己学習(3DCS)戦略を導入する。
論文 参考訳(メタデータ) (2024-04-22T15:01:32Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - GES: Generalized Exponential Splatting for Efficient Radiance Field Rendering [112.16239342037714]
GES(Generalized Exponential Splatting)は、GEF(Generalized Exponential Function)を用いて3Dシーンをモデル化する斬新な表現である。
周波数変調損失の助けを借りて、GESは新規なビュー合成ベンチマークにおいて競合性能を達成する。
論文 参考訳(メタデータ) (2024-02-15T17:32:50Z) - GPS-Gaussian: Generalizable Pixel-wise 3D Gaussian Splatting for Real-time Human Novel View Synthesis [70.24111297192057]
我々は、文字の新たなビューをリアルタイムに合成するための新しいアプローチ、GPS-Gaussianを提案する。
提案手法は,スパースビューカメラ設定下での2K解像度のレンダリングを可能にする。
論文 参考訳(メタデータ) (2023-12-04T18:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。