論文の概要: LUDVIG: Learning-free Uplifting of 2D Visual features to Gaussian Splatting scenes
- arxiv url: http://arxiv.org/abs/2410.14462v3
- Date: Fri, 06 Dec 2024 15:39:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 12:36:18.407031
- Title: LUDVIG: Learning-free Uplifting of 2D Visual features to Gaussian Splatting scenes
- Title(参考訳): LUDVIG: ガウス・スプレイティングシーンにおける2次元視覚特徴の学習自由化
- Authors: Juliette Marrie, Romain Menegaux, Michael Arbel, Diane Larlus, Julien Mairal,
- Abstract要約: 本研究では,3次元ガウス・スプラッティングシーンに2次元画像特徴をアップリフトする新しい手法を提案する。
本手法は,グラフ拡散機構により拡張された,よりシンプルで効率的な特徴集約手法を用いる。
CLIP機能に適用すると,オープン語彙オブジェクト検出タスクにおいて高い性能を示す。
- 参考スコア(独自算出の注目度): 39.687526103092445
- License:
- Abstract: We address the problem of extending the capabilities of vision foundation models such as DINO, SAM, and CLIP, to 3D tasks. Specifically, we introduce a novel method to uplift 2D image features into 3D Gaussian Splatting scenes. Unlike traditional approaches that rely on minimizing a reconstruction loss, our method employs a simpler and more efficient feature aggregation technique, augmented by a graph diffusion mechanism. Graph diffusion enriches features from a given model, such as CLIP, by leveraging 3D geometry and pairwise similarities induced by another strong model such as DINOv2. Our approach achieves performance comparable to the state of the art on multiple downstream tasks while delivering significant speed-ups. Notably, we obtain competitive segmentation results using generic DINOv2 features, despite DINOv2 not being trained on millions of annotated segmentation masks like SAM. When applied to CLIP features, our method demonstrates strong performance in open-vocabulary object detection tasks, highlighting the versatility of our approach.
- Abstract(参考訳): DINO,SAM,CLIPといった視覚基盤モデルの能力を3Dタスクに拡張する問題に対処する。
具体的には,2次元画像の特徴を3次元ガウススプラッティングシーンにアップリフトする新しい手法を提案する。
再構成損失を最小限に抑える従来の手法とは異なり,本手法では,グラフ拡散機構によって拡張された,よりシンプルで効率的な特徴集約手法を採用している。
グラフ拡散は、3次元幾何とDINOv2のような他の強いモデルによって誘導される対の類似性を活用することにより、CLIPのような与えられたモデルからの特徴を豊かにする。
提案手法は,複数のダウンストリームタスクにおける最新技術に匹敵する性能を実現すると同時に,大幅な高速化を実現する。
特に、DINOv2はSAMのような数百万の注釈付きセグメンテーションマスクで訓練されていないにもかかわらず、ジェネリックDINOv2特徴を用いて競合セグメンテーション結果を得る。
CLIP機能に適用すると、オープン語彙オブジェクト検出タスクにおいて高い性能を示し、アプローチの汎用性を強調します。
関連論文リスト
- Gradient-Weighted Feature Back-Projection: A Fast Alternative to Feature Distillation in 3D Gaussian Splatting [6.647959476396794]
提案手法は, 最終レンダリングにおけるガウスの影響に基づいて, 重み付け和を用いて, 事前学習した3次元ガウスの2次元特徴を逆投影する。
トレーニングベースの特徴場レンダリング手法は2次元セグメンテーションでは優れるが,後処理なしでは3次元セグメンテーションでは性能が劣る。
論文 参考訳(メタデータ) (2024-11-19T12:17:15Z) - Open-Vocabulary 3D Semantic Segmentation with Text-to-Image Diffusion Models [57.37244894146089]
Diff2Sceneは、テキスト画像生成モデルからの凍結表現と、サルエント・アウェアと幾何学的アウェアマスクを併用して、オープンな3次元セマンティックセマンティックセグメンテーションと視覚的グラウンドニングタスクに活用する。
競争ベースラインを上回り、最先端の手法よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2024-07-18T16:20:56Z) - RT-GS2: Real-Time Generalizable Semantic Segmentation for 3D Gaussian Representations of Radiance Fields [6.071025178912125]
ガウススプラッティングを用いた最初の一般化可能なセマンティックセマンティックセグメンテーション法であるRT-GS2を紹介する。
提案手法は27.03 FPSのリアルタイム性能を実現し,既存の手法に比べて901倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-28T10:34:28Z) - Contrastive Gaussian Clustering: Weakly Supervised 3D Scene Segmentation [14.967600484476385]
本稿では,任意の視点からセグメンテーションマスクを提供する新しいアプローチであるContrastive Gaussian Clusteringを紹介する。
本手法は,不整合な2次元セグメンテーションマスクを用いてトレーニングが可能であり,また,すべてのビューに一貫性のあるセグメンテーションマスクの生成も学べる。
結果のモデルは非常に正確で、予測されたマスクのIoU精度を、最先端で+8%以上向上させる。
論文 参考訳(メタデータ) (2024-04-19T10:47:53Z) - Segment Any 3D Object with Language [58.471327490684295]
本稿では,Segment any 3D Object with LanguagE (SOLE)を紹介した。
具体的には、バックボーンとデコーダの両方にマルチモーダル意味を組み込むマルチモーダル融合ネットワークを提案する。
我々のSOLEは、ScanNetv2、ScanNet200、Replicaベンチマークにおいて、従来の方法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2024-04-02T17:59:10Z) - Semantic Gaussians: Open-Vocabulary Scene Understanding with 3D Gaussian Splatting [27.974762304763694]
セマンティック・ガウシアン(Semantic Gaussians)は,3次元ガウシアン・スプレイティングをベースとした,新しいオープン語彙シーン理解手法である。
既存の手法とは異なり、様々な2次元意味的特徴を3次元ガウスの新たな意味的構成要素にマッピングする多目的投影手法を設計する。
我々は,高速な推論のために,生の3Dガウスから意味成分を直接予測する3Dセマンティックネットワークを構築した。
論文 参考訳(メタデータ) (2024-03-22T21:28:19Z) - Segment Any 3D Gaussians [85.93694310363325]
本稿では, 3次元ガウススプレイティング(3D-GS)に基づく高効率3Dプロンプト可能なセグメンテーション法であるSAGAについて述べる。
入力として2D視覚的プロンプトが与えられたとき、SAGAは対応する3Dターゲットを4ミリ秒以内に3Dガウスで表現できる。
我々は,SAGAが最先端の手法に匹敵する品質で,リアルタイムな多粒度セグメンテーションを実現することを示す。
論文 参考訳(メタデータ) (2023-12-01T17:15:24Z) - Scene-Generalizable Interactive Segmentation of Radiance Fields [64.37093918762]
我々はSGISRF(Scene-Generalizable Interactive in Radiance Fields)の最初の試みを行う。
そこで本研究では,複数視点の2D画像に対して,対話的なユーザクリック数回しか表示されない,新しい(見えない)シーンの3Dオブジェクトセグメンテーションを実現するSGISRF手法を提案する。
多様なシーンをカバーする2つの実世界の挑戦的ベンチマーク実験は,1) 提案手法の有効性とシーン一般化性を示し,2) シーン固有の最適化を必要とする古典的手法と比較して良好な性能を示した。
論文 参考訳(メタデータ) (2023-08-09T17:55:50Z) - MvDeCor: Multi-view Dense Correspondence Learning for Fine-grained 3D
Segmentation [91.6658845016214]
そこで本研究では,2次元領域における自己教師型手法を,微細な3次元形状分割作業に活用することを提案する。
複数のビューから3次元形状を描画し、コントラスト学習フレームワーク内に密接な対応学習タスクを設置する。
その結果、学習された2次元表現はビュー不変であり、幾何学的に一貫性がある。
論文 参考訳(メタデータ) (2022-08-18T00:48:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。