論文の概要: Contrastive Gaussian Clustering: Weakly Supervised 3D Scene Segmentation
- arxiv url: http://arxiv.org/abs/2404.12784v1
- Date: Fri, 19 Apr 2024 10:47:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-22 15:26:30.733213
- Title: Contrastive Gaussian Clustering: Weakly Supervised 3D Scene Segmentation
- Title(参考訳): 対照的なガウス的クラスタリング:弱めに監督された3次元シーンセグメンテーション
- Authors: Myrna C. Silva, Mahtab Dahaghin, Matteo Toso, Alessio Del Bue,
- Abstract要約: 本稿では,任意の視点からセグメンテーションマスクを提供する新しいアプローチであるContrastive Gaussian Clusteringを紹介する。
本手法は,不整合な2次元セグメンテーションマスクを用いてトレーニングが可能であり,また,すべてのビューに一貫性のあるセグメンテーションマスクの生成も学べる。
結果のモデルは非常に正確で、予測されたマスクのIoU精度を、最先端で+8%以上向上させる。
- 参考スコア(独自算出の注目度): 14.967600484476385
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We introduce Contrastive Gaussian Clustering, a novel approach capable of provide segmentation masks from any viewpoint and of enabling 3D segmentation of the scene. Recent works in novel-view synthesis have shown how to model the appearance of a scene via a cloud of 3D Gaussians, and how to generate accurate images from a given viewpoint by projecting on it the Gaussians before $\alpha$ blending their color. Following this example, we train a model to include also a segmentation feature vector for each Gaussian. These can then be used for 3D scene segmentation, by clustering Gaussians according to their feature vectors; and to generate 2D segmentation masks, by projecting the Gaussians on a plane and $\alpha$ blending over their segmentation features. Using a combination of contrastive learning and spatial regularization, our method can be trained on inconsistent 2D segmentation masks, and still learn to generate segmentation masks consistent across all views. Moreover, the resulting model is extremely accurate, improving the IoU accuracy of the predicted masks by $+8\%$ over the state of the art. Code and trained models will be released soon.
- Abstract(参考訳): コントラッシブ・ガウス・クラスタリング(Contrastive Gaussian Clustering)は,任意の視点からセグメンテーションマスクを提供し,シーンの3次元セグメンテーションを可能にする新しいアプローチである。
新規ビュー合成における最近の研究は、3Dガウシアンの雲を通してシーンの外観をモデル化する方法と、その色を$\alpha$に混ぜる前にガウシアンに投影することで、与えられた視点から正確な画像を生成する方法を示している。
この例に従って、各ガウスについて分割特徴ベクトルを含むようにモデルを訓練する。
次にこれらは、3Dシーンのセグメンテーション、特徴ベクトルに従ってガウスをクラスタリングし、2Dセグメンテーションマスクを生成することで、平面上にガウスを投影し、そのセグメンテーション特徴に$\alpha$をブレンディングすることで使用することができる。
コントラスト学習と空間正規化の組み合わせを用いることで,不整合な2次元セグメンテーションマスクをトレーニングし,また,すべてのビューに整合したセグメンテーションマスクの生成を学習することができる。
さらに、得られたモデルは非常に正確であり、予測マスクのIoU精度を最先端よりも+8\%以上向上させる。
コードとトレーニングされたモデルも間もなくリリースされる予定だ。
関連論文リスト
- NovelGS: Consistent Novel-view Denoising via Large Gaussian Reconstruction Model [57.92709692193132]
NovelGSは、スパースビュー画像が与えられたガウススプラッティングの拡散モデルである。
我々は3Dガウスを生成するためにトランスフォーマーネットワークを経由する新しい視点を利用する。
論文 参考訳(メタデータ) (2024-11-25T07:57:17Z) - GaussianCut: Interactive segmentation via graph cut for 3D Gaussian Splatting [7.392798832833857]
我々は3Dガウスアンとして表現されるシーンのインタラクティブなマルチビューセグメンテーション手法であるGaussianCutを紹介する。
このアプローチでは、単一のビューと対話することで、セグメンテーション対象を選択することができます。
ポイントクリック、粗いスクリブル、テキストなどの直感的なユーザー入力を受け入れる。
論文 参考訳(メタデータ) (2024-11-12T05:09:42Z) - No Pose, No Problem: Surprisingly Simple 3D Gaussian Splats from Sparse Unposed Images [100.80376573969045]
NoPoSplatは、多視点画像から3Dガウスアンによってパラメータ化された3Dシーンを再構成できるフィードフォワードモデルである。
提案手法は,推定時にリアルタイムな3次元ガウス再構成を実現する。
この研究は、ポーズフリーの一般化可能な3次元再構成において大きな進歩をもたらし、実世界のシナリオに適用可能であることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:58:22Z) - LUDVIG: Learning-free Uplifting of 2D Visual features to Gaussian Splatting scenes [39.687526103092445]
単純で効果的な集約手法が優れた結果をもたらすことを示す。
本手法を汎用DINOv2機能に拡張し,グラフ拡散による3次元シーン形状を統合し,競合セグメンテーションの結果を得る。
論文 参考訳(メタデータ) (2024-10-18T13:44:29Z) - Gradient-Driven 3D Segmentation and Affordance Transfer in Gaussian Splatting Using 2D Masks [6.647959476396794]
3Dガウススプラッティングは強力な3Dシーン表現技術として登場し、高効率で細部を捉えている。
本稿では,2次元分割モデルを3次元ガウススプラットに拡張する投票方式を提案する。
このアプローチの根底にある頑健だが単純な数学的定式化は、多くの下流アプリケーションにとって非常に効果的なツールである。
論文 参考訳(メタデータ) (2024-09-18T03:45:44Z) - ShapeSplat: A Large-scale Dataset of Gaussian Splats and Their Self-Supervised Pretraining [104.34751911174196]
ShapeNetとModelNetを用いた大規模3DGSデータセットを構築した。
データセットのShapeSplatは、87のユニークなカテゴリから65Kのオブジェクトで構成されています。
textbftextitGaussian-MAEを導入し、ガウスパラメータからの表現学習の独特な利点を強調した。
論文 参考訳(メタデータ) (2024-08-20T14:49:14Z) - GaussianFormer: Scene as Gaussians for Vision-Based 3D Semantic Occupancy Prediction [70.65250036489128]
3Dのセマンティック占有予測は,周囲のシーンの3Dの微細な形状とセマンティックスを得ることを目的としている。
本稿では,3Dシーンを3Dセマンティック・ガウシアンで表現するオブジェクト中心表現を提案する。
GaussianFormerは17.8%から24.8%のメモリ消費しか持たない最先端のメソッドで同等のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-27T17:59:51Z) - Learning Segmented 3D Gaussians via Efficient Feature Unprojection for Zero-shot Neural Scene Segmentation [16.57158278095853]
ゼロショットニューラルシーンセグメンテーションはシーン理解に有効な方法である。
既存のモデル、特に効率的な3Dガウス法は、コンパクトなセグメンテーションの結果を生み出すのに苦労している。
セグメンテーションフィールドとしてFeature UnprojectionとFusionモジュールを提案する。
本モデルでは,ゼロショットセマンティックセグメンテーションタスクのベースラインを超越し,最良ベースラインよりも10%mIoU向上を図っている。
論文 参考訳(メタデータ) (2024-01-11T14:05:01Z) - Segment Any 3D Gaussians [85.93694310363325]
本稿では, 3次元ガウススプレイティング(3D-GS)に基づく高効率3Dプロンプト可能なセグメンテーション法であるSAGAについて述べる。
入力として2D視覚的プロンプトが与えられたとき、SAGAは対応する3Dターゲットを4ミリ秒以内に3Dガウスで表現できる。
我々は,SAGAが最先端の手法に匹敵する品質で,リアルタイムな多粒度セグメンテーションを実現することを示す。
論文 参考訳(メタデータ) (2023-12-01T17:15:24Z) - Gaussian Grouping: Segment and Edit Anything in 3D Scenes [65.49196142146292]
ガウシアン・グルーピング(ガウシアン・グルーピング)はガウシアン・スプラッティングを拡張して,オープンワールドの3Dシーンで何かを共同で再構築・分割する。
暗黙のNeRF表現と比較すると,グループ化された3次元ガウシアンは,高画質,微粒度,高効率で,あらゆるものを3次元で再構成,分割,編集することができる。
論文 参考訳(メタデータ) (2023-12-01T17:09:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。