論文の概要: LUDVIG: Learning-free Uplifting of 2D Visual features to Gaussian Splatting scenes
- arxiv url: http://arxiv.org/abs/2410.14462v1
- Date: Fri, 18 Oct 2024 13:44:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:25:09.799786
- Title: LUDVIG: Learning-free Uplifting of 2D Visual features to Gaussian Splatting scenes
- Title(参考訳): LUDVIG: ガウス・スプレイティングシーンにおける2次元視覚特徴の学習自由化
- Authors: Juliette Marrie, Romain Ménégaux, Michael Arbel, Diane Larlus, Julien Mairal,
- Abstract要約: 単純で効果的な集約手法が優れた結果をもたらすことを示す。
本手法を汎用DINOv2機能に拡張し,グラフ拡散による3次元シーン形状を統合し,競合セグメンテーションの結果を得る。
- 参考スコア(独自算出の注目度): 39.687526103092445
- License:
- Abstract: We address the task of uplifting visual features or semantic masks from 2D vision models to 3D scenes represented by Gaussian Splatting. Whereas common approaches rely on iterative optimization-based procedures, we show that a simple yet effective aggregation technique yields excellent results. Applied to semantic masks from Segment Anything (SAM), our uplifting approach leads to segmentation quality comparable to the state of the art. We then extend this method to generic DINOv2 features, integrating 3D scene geometry through graph diffusion, and achieve competitive segmentation results despite DINOv2 not being trained on millions of annotated masks like SAM.
- Abstract(参考訳): 本稿では,2次元視覚モデルからガウススプラッティングで表現された3次元シーンまで,視覚的特徴やセマンティックマスクを上昇させる課題に対処する。
一般的な手法は反復的最適化に基づく手法に依存しているのに対し、単純で効果的な集約手法が優れた結果をもたらすことを示す。
Segment Anything (SAM) のセマンティックマスクに応用すると、我々のアップリフトアプローチは、最先端技術に匹敵するセグメンテーション品質をもたらす。
次に,この手法を汎用DINOv2機能に拡張し,グラフ拡散による3次元シーン形状を統合し,SAMのような数百万のアノテートマスクでトレーニングされていないにもかかわらず,競合セグメンテーション結果を達成する。
関連論文リスト
- Open-Vocabulary 3D Semantic Segmentation with Text-to-Image Diffusion Models [57.37244894146089]
Diff2Sceneは、テキスト画像生成モデルからの凍結表現と、サルエント・アウェアと幾何学的アウェアマスクを併用して、オープンな3次元セマンティックセマンティックセグメンテーションと視覚的グラウンドニングタスクに活用する。
競争ベースラインを上回り、最先端の手法よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2024-07-18T16:20:56Z) - RT-GS2: Real-Time Generalizable Semantic Segmentation for 3D Gaussian Representations of Radiance Fields [6.071025178912125]
ガウススプラッティングを用いた最初の一般化可能なセマンティックセマンティックセグメンテーション法であるRT-GS2を紹介する。
提案手法は27.03 FPSのリアルタイム性能を実現し,既存の手法に比べて901倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-28T10:34:28Z) - CLIP-GS: CLIP-Informed Gaussian Splatting for Real-time and View-consistent 3D Semantic Understanding [32.76277160013881]
コントラスト言語画像事前学習(CLIP)のセマンティクスをガウススプラッティングに統合するCLIP-GSを提案する。
SACはオブジェクト内の固有の統一意味論を利用して、3Dガウスのコンパクトで効果的な意味表現を学ぶ。
また,3次元モデルから得られた多視点一貫性を利用して,3次元コヒーレント自己学習(3DCS)戦略を導入する。
論文 参考訳(メタデータ) (2024-04-22T15:01:32Z) - Contrastive Gaussian Clustering: Weakly Supervised 3D Scene Segmentation [14.967600484476385]
本稿では,任意の視点からセグメンテーションマスクを提供する新しいアプローチであるContrastive Gaussian Clusteringを紹介する。
本手法は,不整合な2次元セグメンテーションマスクを用いてトレーニングが可能であり,また,すべてのビューに一貫性のあるセグメンテーションマスクの生成も学べる。
結果のモデルは非常に正確で、予測されたマスクのIoU精度を、最先端で+8%以上向上させる。
論文 参考訳(メタデータ) (2024-04-19T10:47:53Z) - Segment Any 3D Object with Language [58.471327490684295]
本稿では,Segment any 3D Object with LanguagE (SOLE)を紹介した。
具体的には、バックボーンとデコーダの両方にマルチモーダル意味を組み込むマルチモーダル融合ネットワークを提案する。
我々のSOLEは、ScanNetv2、ScanNet200、Replicaベンチマークにおいて、従来の方法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2024-04-02T17:59:10Z) - Semantic Gaussians: Open-Vocabulary Scene Understanding with 3D Gaussian Splatting [27.974762304763694]
セマンティック・ガウシアン(Semantic Gaussians)は,3次元ガウシアン・スプレイティングをベースとした,新しいオープン語彙シーン理解手法である。
既存の手法とは異なり、様々な2次元意味的特徴を3次元ガウスの新たな意味的構成要素にマッピングする多目的投影手法を設計する。
我々は,高速な推論のために,生の3Dガウスから意味成分を直接予測する3Dセマンティックネットワークを構築した。
論文 参考訳(メタデータ) (2024-03-22T21:28:19Z) - Segment Any 3D Gaussians [85.93694310363325]
本稿では, 3次元ガウススプレイティング(3D-GS)に基づく高効率3Dプロンプト可能なセグメンテーション法であるSAGAについて述べる。
入力として2D視覚的プロンプトが与えられたとき、SAGAは対応する3Dターゲットを4ミリ秒以内に3Dガウスで表現できる。
我々は,SAGAが最先端の手法に匹敵する品質で,リアルタイムな多粒度セグメンテーションを実現することを示す。
論文 参考訳(メタデータ) (2023-12-01T17:15:24Z) - Scene-Generalizable Interactive Segmentation of Radiance Fields [64.37093918762]
我々はSGISRF(Scene-Generalizable Interactive in Radiance Fields)の最初の試みを行う。
そこで本研究では,複数視点の2D画像に対して,対話的なユーザクリック数回しか表示されない,新しい(見えない)シーンの3Dオブジェクトセグメンテーションを実現するSGISRF手法を提案する。
多様なシーンをカバーする2つの実世界の挑戦的ベンチマーク実験は,1) 提案手法の有効性とシーン一般化性を示し,2) シーン固有の最適化を必要とする古典的手法と比較して良好な性能を示した。
論文 参考訳(メタデータ) (2023-08-09T17:55:50Z) - MvDeCor: Multi-view Dense Correspondence Learning for Fine-grained 3D
Segmentation [91.6658845016214]
そこで本研究では,2次元領域における自己教師型手法を,微細な3次元形状分割作業に活用することを提案する。
複数のビューから3次元形状を描画し、コントラスト学習フレームワーク内に密接な対応学習タスクを設置する。
その結果、学習された2次元表現はビュー不変であり、幾何学的に一貫性がある。
論文 参考訳(メタデータ) (2022-08-18T00:48:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。