Fugu-MT 論文翻訳(概要): LUDVIG: Learning-free Uplifting of 2D Visual features to Gaussian Splatting scenes

論文の概要: LUDVIG: Learning-free Uplifting of 2D Visual features to Gaussian Splatting scenes

arxiv url: http://arxiv.org/abs/2410.14462v3
Date: Fri, 06 Dec 2024 15:39:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-09 14:23:56.069227
Title: LUDVIG: Learning-free Uplifting of 2D Visual features to Gaussian Splatting scenes
Title（参考訳）: LUDVIG: ガウス・スプレイティングシーンにおける2次元視覚特徴の学習自由化
Authors: Juliette Marrie, Romain Menegaux, Michael Arbel, Diane Larlus, Julien Mairal,
Abstract要約: 本研究では,3次元ガウス・スプラッティングシーンに2次元画像特徴をアップリフトする新しい手法を提案する。本手法は,グラフ拡散機構により拡張された,よりシンプルで効率的な特徴集約手法を用いる。 CLIP機能に適用すると,オープン語彙オブジェクト検出タスクにおいて高い性能を示す。
参考スコア（独自算出の注目度）: 39.687526103092445
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We address the problem of extending the capabilities of vision foundation models such as DINO, SAM, and CLIP, to 3D tasks. Specifically, we introduce a novel method to uplift 2D image features into 3D Gaussian Splatting scenes. Unlike traditional approaches that rely on minimizing a reconstruction loss, our method employs a simpler and more efficient feature aggregation technique, augmented by a graph diffusion mechanism. Graph diffusion enriches features from a given model, such as CLIP, by leveraging 3D geometry and pairwise similarities induced by another strong model such as DINOv2. Our approach achieves performance comparable to the state of the art on multiple downstream tasks while delivering significant speed-ups. Notably, we obtain competitive segmentation results using generic DINOv2 features, despite DINOv2 not being trained on millions of annotated segmentation masks like SAM. When applied to CLIP features, our method demonstrates strong performance in open-vocabulary object detection tasks, highlighting the versatility of our approach.
Abstract（参考訳）: DINO,SAM,CLIPといった視覚基盤モデルの能力を3Dタスクに拡張する問題に対処する。具体的には,2次元画像の特徴を3次元ガウススプラッティングシーンにアップリフトする新しい手法を提案する。再構成損失を最小限に抑える従来の手法とは異なり,本手法では,グラフ拡散機構によって拡張された,よりシンプルで効率的な特徴集約手法を採用している。グラフ拡散は、3次元幾何とDINOv2のような他の強いモデルによって誘導される対の類似性を活用することにより、CLIPのような与えられたモデルからの特徴を豊かにする。提案手法は,複数のダウンストリームタスクにおける最新技術に匹敵する性能を実現すると同時に,大幅な高速化を実現する。特に、DINOv2はSAMのような数百万の注釈付きセグメンテーションマスクで訓練されていないにもかかわらず、ジェネリックDINOv2特徴を用いて競合セグメンテーション結果を得る。 CLIP機能に適用すると、オープン語彙オブジェクト検出タスクにおいて高い性能を示し、アプローチの汎用性を強調します。

関連論文リスト

Gaussian2Scene: 3D Scene Representation Learning via Self-supervised Learning with 3D Gaussian Splatting [6.678115792482272]
ポイントクラウドの事前トレーニングのための自己教師付き学習(SSL)は、多くの3Dビジョンタスクの基盤となっている。本稿では,3次元ガウススティング(3DGS)の効率性と明示性を事前学習に活用する,シーンレベルのSSLフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-10T13:19:21Z)
GSFF-SLAM: 3D Semantic Gaussian Splatting SLAM via Feature Field [17.57215792490409]
GSFF-SLAMは3次元ガウススプラッティングに基づく新しい意味論的SLAMシステムである。提案手法は, 様々な2次元先行情報, 特にスパース信号と雑音信号を用いた意味的再構成を支援する。 2D基底真理を利用する場合、GSFF-SLAMは95.03% mIoUで最先端のセマンティックセグメンテーション性能を達成する。
論文参考訳（メタデータ） (2025-04-28T01:21:35Z)
econSG: Efficient and Multi-view Consistent Open-Vocabulary 3D Semantic Gaussians [56.85804719947]
3DGSを用いたオープン語彙セマンティックセマンティックセグメンテーションのためのeconSGを提案する。筆者らのeconSGは,既存手法と比較して,4つのベンチマークデータセット上での最先端性能を示す。
論文参考訳（メタデータ） (2025-04-08T13:12:31Z)
Is Contrastive Distillation Enough for Learning Comprehensive 3D Representations? [55.99654128127689]
クロスモーダル・コントラスト蒸留は近年,有効3次元表現の学習のために研究されている。既存の手法は主にモーダリティ共有の特徴に焦点を合わせ、事前学習過程におけるモーダリティ固有の特徴を無視している。本稿では,これらの欠点に対処する新しいフレームワークCMCRを提案する。
論文参考訳（メタデータ） (2024-12-12T06:09:49Z)
A Lesson in Splats: Teacher-Guided Diffusion for 3D Gaussian Splats Generation with 2D Supervision [65.33043028101471]
本研究では,ガウスプレートの拡散モデルであるSplatDiffusionを導入し,単一画像から3次元構造を生成する。既存の方法は決定論的フィードフォワード予測に依存しており、2Dデータからの3D推論の本質的な曖昧さを扱う能力を制限する。
論文参考訳（メタデータ） (2024-12-01T00:29:57Z)
Gradient-Weighted Feature Back-Projection: A Fast Alternative to Feature Distillation in 3D Gaussian Splatting [6.647959476396794]
提案手法は, 最終レンダリングにおけるガウスの影響に基づいて, 重み付け和を用いて, 事前学習した3次元ガウスの2次元特徴を逆投影する。トレーニングベースの特徴場レンダリング手法は2次元セグメンテーションでは優れるが,後処理なしでは3次元セグメンテーションでは性能が劣る。
論文参考訳（メタデータ） (2024-11-19T12:17:15Z)
Open-Vocabulary 3D Semantic Segmentation with Text-to-Image Diffusion Models [57.37244894146089]
Diff2Sceneは、テキスト画像生成モデルからの凍結表現と、サルエント・アウェアと幾何学的アウェアマスクを併用して、オープンな3次元セマンティックセマンティックセグメンテーションと視覚的グラウンドニングタスクに活用する。競争ベースラインを上回り、最先端の手法よりも大幅に改善されていることを示す。
論文参考訳（メタデータ） (2024-07-18T16:20:56Z)
RT-GS2: Real-Time Generalizable Semantic Segmentation for 3D Gaussian Representations of Radiance Fields [6.071025178912125]
ガウススプラッティングを用いた最初の一般化可能なセマンティックセマンティックセグメンテーション法であるRT-GS2を紹介する。提案手法は27.03 FPSのリアルタイム性能を実現し,既存の手法に比べて901倍の高速化を実現している。
論文参考訳（メタデータ） (2024-05-28T10:34:28Z)
CLIP-GS: CLIP-Informed Gaussian Splatting for Real-time and View-consistent 3D Semantic Understanding [32.76277160013881]
コントラスト言語画像事前学習(CLIP)のセマンティクスをガウススプラッティングに統合するCLIP-GSを提案する。 SACはオブジェクト内の固有の統一意味論を利用して、3Dガウスのコンパクトで効果的な意味表現を学ぶ。また,3次元モデルから得られた多視点一貫性を利用して,3次元コヒーレント自己学習(3DCS)戦略を導入する。
論文参考訳（メタデータ） (2024-04-22T15:01:32Z)
Contrastive Gaussian Clustering: Weakly Supervised 3D Scene Segmentation [14.967600484476385]
本稿では,任意の視点からセグメンテーションマスクを提供する新しいアプローチであるContrastive Gaussian Clusteringを紹介する。本手法は,不整合な2次元セグメンテーションマスクを用いてトレーニングが可能であり,また,すべてのビューに一貫性のあるセグメンテーションマスクの生成も学べる。結果のモデルは非常に正確で、予測されたマスクのIoU精度を、最先端で+8%以上向上させる。
論文参考訳（メタデータ） (2024-04-19T10:47:53Z)
Segment Any 3D Object with Language [58.471327490684295]
本稿では,Segment any 3D Object with LanguagE (SOLE)を紹介した。具体的には、バックボーンとデコーダの両方にマルチモーダル意味を組み込むマルチモーダル融合ネットワークを提案する。我々のSOLEは、ScanNetv2、ScanNet200、Replicaベンチマークにおいて、従来の方法よりも大きなマージンで優れている。
論文参考訳（メタデータ） (2024-04-02T17:59:10Z)
Semantic Gaussians: Open-Vocabulary Scene Understanding with 3D Gaussian Splatting [27.974762304763694]
セマンティック・ガウシアン(Semantic Gaussians)は,3次元ガウシアン・スプレイティングをベースとした,新しいオープン語彙シーン理解手法である。既存の手法とは異なり、様々な2次元意味的特徴を3次元ガウスの新たな意味的構成要素にマッピングする多目的投影手法を設計する。我々は,高速な推論のために,生の3Dガウスから意味成分を直接予測する3Dセマンティックネットワークを構築した。
論文参考訳（メタデータ） (2024-03-22T21:28:19Z)
Segment Any 3D Gaussians [85.93694310363325]
本稿では, 3次元ガウススプレイティング(3D-GS)に基づく高効率3Dプロンプト可能なセグメンテーション法であるSAGAについて述べる。入力として2D視覚的プロンプトが与えられたとき、SAGAは対応する3Dターゲットを4ミリ秒以内に3Dガウスで表現できる。我々は,SAGAが最先端の手法に匹敵する品質で,リアルタイムな多粒度セグメンテーションを実現することを示す。
論文参考訳（メタデータ） (2023-12-01T17:15:24Z)
GS-SLAM: Dense Visual SLAM with 3D Gaussian Splatting [51.96353586773191]
我々は,まず3次元ガウス表現を利用したtextbfGS-SLAM を提案する。提案手法は,地図の最適化とRGB-Dレンダリングの大幅な高速化を実現するリアルタイム微分可能なスプレイティングレンダリングパイプラインを利用する。提案手法は,Replica,TUM-RGBDデータセット上の既存の最先端リアルタイム手法と比較して,競争性能が向上する。
論文参考訳（メタデータ） (2023-11-20T12:08:23Z)
M$^{3}$3D: Learning 3D priors using Multi-Modal Masked Autoencoders for 2D image and video understanding [5.989397492717352]
M$3$3D ($underlineM$ulti-$underlineM$odal $underlineM$asked $underline3D$) はマルチモーダルマスキングオートエンコーダをベースとする。我々は,Masked Image Modeling(MIM)とコントラスト学習という,自己教師型学習フレームワークを統合した。実験の結果、M$3$3D は ScanNet, NYUv2, UCF-101, OR-AR における最先端のアプローチよりも優れていた。
論文参考訳（メタデータ） (2023-09-26T23:52:09Z)
Scene-Generalizable Interactive Segmentation of Radiance Fields [64.37093918762]
我々はSGISRF(Scene-Generalizable Interactive in Radiance Fields)の最初の試みを行う。そこで本研究では,複数視点の2D画像に対して,対話的なユーザクリック数回しか表示されない,新しい(見えない)シーンの3Dオブジェクトセグメンテーションを実現するSGISRF手法を提案する。多様なシーンをカバーする2つの実世界の挑戦的ベンチマーク実験は,1) 提案手法の有効性とシーン一般化性を示し,2) シーン固有の最適化を必要とする古典的手法と比較して良好な性能を示した。
論文参考訳（メタデータ） (2023-08-09T17:55:50Z)
Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文参考訳（メタデータ） (2022-09-01T10:46:09Z)
MvDeCor: Multi-view Dense Correspondence Learning for Fine-grained 3D Segmentation [91.6658845016214]
そこで本研究では,2次元領域における自己教師型手法を,微細な3次元形状分割作業に活用することを提案する。複数のビューから3次元形状を描画し、コントラスト学習フレームワーク内に密接な対応学習タスクを設置する。その結果、学習された2次元表現はビュー不変であり、幾何学的に一貫性がある。
論文参考訳（メタデータ） (2022-08-18T00:48:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。