Fugu-MT 論文翻訳(概要): Bootstraping Clustering of Gaussians for View-consistent 3D Scene Understanding

論文の概要: Bootstraping Clustering of Gaussians for View-consistent 3D Scene Understanding

arxiv url: http://arxiv.org/abs/2411.19551v1
Date: Fri, 29 Nov 2024 08:52:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 20:28:07.963212
Title: Bootstraping Clustering of Gaussians for View-consistent 3D Scene Understanding
Title（参考訳）: ビュー一貫性を持つ3次元シーン理解のためのガウス群のブートストラップクラスタリング
Authors: Wenbo Zhang, Lu Zhang, Ping Hu, Liqian Ma, Yunzhi Zhuge, Huchuan Lu,
Abstract要約: FreeGSは、教師なしセマンティック組み込み3DGSフレームワークで、2Dラベルを必要とせずに、ビュー一貫性のある3Dシーン理解を実現する。我々は、FreeGSが複雑なデータ前処理作業の負荷を回避しつつ、最先端のメソッドと互換性があることを示す。
参考スコア（独自算出の注目度）: 59.51535163599723
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Injecting semantics into 3D Gaussian Splatting (3DGS) has recently garnered significant attention. While current approaches typically distill 3D semantic features from 2D foundational models (e.g., CLIP and SAM) to facilitate novel view segmentation and semantic understanding, their heavy reliance on 2D supervision can undermine cross-view semantic consistency and necessitate complex data preparation processes, therefore hindering view-consistent scene understanding. In this work, we present FreeGS, an unsupervised semantic-embedded 3DGS framework that achieves view-consistent 3D scene understanding without the need for 2D labels. Instead of directly learning semantic features, we introduce the IDentity-coupled Semantic Field (IDSF) into 3DGS, which captures both semantic representations and view-consistent instance indices for each Gaussian. We optimize IDSF with a two-step alternating strategy: semantics help to extract coherent instances in 3D space, while the resulting instances regularize the injection of stable semantics from 2D space. Additionally, we adopt a 2D-3D joint contrastive loss to enhance the complementarity between view-consistent 3D geometry and rich semantics during the bootstrapping process, enabling FreeGS to uniformly perform tasks such as novel-view semantic segmentation, object selection, and 3D object detection. Extensive experiments on LERF-Mask, 3D-OVS, and ScanNet datasets demonstrate that FreeGS performs comparably to state-of-the-art methods while avoiding the complex data preprocessing workload.
Abstract（参考訳）: セマンティックスを3Dガウススプラッティング(3DGS)に注入することは近年注目されている。現在のアプローチでは、新しいビューセグメンテーションやセマンティック理解を促進するために、2Dの基本モデル(例えばCLIPやSAM)から3Dセマンティックな特徴を抽出することが多いが、2Dインスペクションへの強い依存は、クロスビューセマンティックな一貫性を損なう可能性があり、複雑なデータ準備プロセスを必要とするため、ビュー一貫性のあるシーン理解を妨げる。本稿では、2Dラベルを必要とせずに、ビュー一貫性のある3Dシーン理解を実現する、教師なしセマンティック組み込み3DGSフレームワークであるFreeGSを紹介する。セマンティックな特徴を直接学習する代わりに,IDentity-coupled Semantic Field (IDSF) を3DGSに導入する。セマンティクスは3次元空間におけるコヒーレントなインスタンスの抽出に役立ち、その結果のインスタンスは2次元空間から安定なセマンティクスの注入を規則化する。さらに、2D-3Dのジョイント・コントラッシブ・ロスを採用して、ブートストラッピング過程において、ビュー一貫性のある3D幾何とリッチなセマンティクスの相補性を向上し、FreeGSが新規なビューセマンティクス・セグメンテーション、オブジェクト選択、および3Dオブジェクト検出などのタスクを均一に実行できるようにする。 LERF-Mask、3D-OVS、ScanNetデータセットに関する大規模な実験は、FreeGSが複雑なデータ前処理のワークロードを避けながら、最先端のメソッドと互換性があることを示した。

関連論文リスト

Joint Semantic and Rendering Enhancements in 3D Gaussian Modeling with Anisotropic Local Encoding [86.55824709875598]
本稿では,セマンティックとレンダリングの両方を相乗化する3次元セマンティックガウスモデリングのための統合拡張フレームワークを提案する。従来の点雲形状符号化とは異なり、細粒度3次元形状を捉えるために異方性3次元ガウシアン・チェビシェフ記述子を導入する。我々は、学習した形状パターンを継続的に更新するために、クロスシーンの知識伝達モジュールを使用し、より高速な収束と堅牢な表現を可能にします。
論文参考訳（メタデータ） (2026-01-05T18:33:50Z)
IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction [82.53307702809606]
人間は自然に3次元世界の幾何学的構造と意味的内容を中間次元として知覚する。本稿では,空間再構成とインスタンスレベルの文脈理解の両面での知識を統合するために,IGGT (InstanceGrounded Geometry Transformer) を提案する。
論文参考訳（メタデータ） (2025-10-26T14:57:44Z)
Unlocking 3D Affordance Segmentation with 2D Semantic Knowledge [45.19482892758984]
Affordance segmentationは、3Dオブジェクトを機能的に異なる部分にパースすることを目的としている。我々は,3次元エンコーダを昇降した2次元意味論と整合させ,再現,親和性,多様性を共同で最適化し,意味的に整理された表現を得るための事前学習戦略であるCross-Modal Affinity Transfer (CMAT)を導入する。さらに,マルチモーダルプロンプトとCMAT対応機能を統合し,高精度かつ迅速なセグメンテーションマップを生成するCAST (Cross-modal Affordance Transformer) を設計する。
論文参考訳（メタデータ） (2025-10-09T15:01:26Z)
Tackling View-Dependent Semantics in 3D Language Gaussian Splatting [80.88015191411714]
LaGaは、3Dシーンをオブジェクトに分解することで、ビュー間のセマンティック接続を確立する。セマンティック記述子をクラスタリングし、多視点セマンティックスに基づいてそれらを重み付けすることで、ビュー集約セマンティック表現を構築する。同じ設定で、LaGaはLERF-OVSデータセットの以前のSOTAよりも+18.7% mIoUを大幅に改善した。
論文参考訳（メタデータ） (2025-05-30T16:06:32Z)
Training-Free Hierarchical Scene Understanding for Gaussian Splatting with Superpoint Graphs [16.153129392697885]
ガウス原始体から直接スーパーポイントグラフを構築する訓練自由フレームワークを導入する。スーパーポイントグラフはシーンを空間的にコンパクトでセマンティックなコヒーレントな領域に分割し、ビュー一貫性の3Dエンティティを形成する。提案手法は,30時間以上のセグメンテーションを高速化し,最先端のオープン語彙セグメンテーション性能を実現する。
論文参考訳（メタデータ） (2025-04-17T17:56:07Z)
econSG: Efficient and Multi-view Consistent Open-Vocabulary 3D Semantic Gaussians [56.85804719947]
3DGSを用いたオープン語彙セマンティックセマンティックセグメンテーションのためのeconSGを提案する。筆者らのeconSGは,既存手法と比較して,4つのベンチマークデータセット上での最先端性能を示す。
論文参考訳（メタデータ） (2025-04-08T13:12:31Z)
Interpretable Single-View 3D Gaussian Splatting using Unsupervised Hierarchical Disentangled Representation Learning [46.85417907244265]
本稿では,粗い3Dセマンティクスと微粒な3Dセマンティクスの両方を発見するために,3DisGSと呼ばれる解釈可能な単一ビュー3DGSフレームワークを提案する。本モデルでは,高品質かつ高速な再構成を保ちながら3次元のアンタングル化を実現する。
論文参考訳（メタデータ） (2025-04-05T14:42:13Z)
OpenGS-SLAM: Open-Set Dense Semantic SLAM with 3D Gaussian Splatting for Object-Level Scene Understanding [20.578106363482018]
OpenGS-SLAMは3次元ガウス表現を利用して、オープンセット環境で密接なセマンティックSLAMを実行する革新的なフレームワークである。本システムは,2次元モデルから派生した明示的なセマンティックラベルを3次元ガウスフレームワークに統合し,ロバストな3次元オブジェクトレベルの理解を容易にする。本手法は従来の手法に比べて10倍高速なセマンティックレンダリングと2倍のストレージコストを実現する。
論文参考訳（メタデータ） (2025-03-03T15:23:21Z)
OVGaussian: Generalizable 3D Gaussian Segmentation with Open Vocabularies [112.80292725951921]
textbfOVGaussianは3D textbfGaussian表現に基づいた、一般化可能なtextbfOpen-textbfVocabulary 3Dセマンティックセマンティックセグメンテーションフレームワークである。まず,3DGSをベースとした大規模3Dシーンデータセット(textbfSegGaussian)を構築し,ガウス点とマルチビュー画像の両方に対して詳細なセマンティックおよびインスタンスアノテーションを提供する。シーン間のセマンティック・一般化を促進するために,ジェネリック・セマンティック・ラスタライゼーション(GSR)を導入する。
論文参考訳（メタデータ） (2024-12-31T07:55:35Z)
DCSEG: Decoupled 3D Open-Set Segmentation using Gaussian Splatting [0.0]
本稿では,新しい3次元表現へのモジュラリティと適応性を確保するために,分離した3次元分割パイプラインを提案する。我々は、合成および実世界の屋内データセットを評価し、同等のNeRFパイプラインよりも優れた性能を示す。
論文参考訳（メタデータ） (2024-12-14T21:26:44Z)
Semi-supervised 3D Semantic Scene Completion with 2D Vision Foundation Model Guidance [11.090775523892074]
我々は、高密度な注釈付きデータへの依存を軽減するために、新しい半教師付きフレームワークを導入する。提案手法は2次元基礎モデルを用いて3次元シーンの幾何学的・意味的手がかりを生成する。本手法は,10%のラベル付きデータを用いて全教師付き性能の最大85%を達成する。
論文参考訳（メタデータ） (2024-08-21T12:13:18Z)
OpenGaussian: Towards Point-Level 3D Gaussian-based Open Vocabulary Understanding [54.981605111365056]
本稿では,3次元点レベルの開語彙理解が可能な3次元ガウススティング(3DGS)に基づくOpenGaussianを紹介する。我々の主な動機は、既存の3DGSベースのオープン語彙法が主に2Dピクセルレベルの解析に焦点を当てていることに起因している。
論文参考訳（メタデータ） (2024-06-04T07:42:33Z)
CLIP-GS: CLIP-Informed Gaussian Splatting for Real-time and View-consistent 3D Semantic Understanding [32.76277160013881]
コントラスト言語画像事前学習(CLIP)のセマンティクスをガウススプラッティングに統合するCLIP-GSを提案する。 SACはオブジェクト内の固有の統一意味論を利用して、3Dガウスのコンパクトで効果的な意味表現を学ぶ。また,3次元モデルから得られた多視点一貫性を利用して,3次元コヒーレント自己学習(3DCS)戦略を導入する。
論文参考訳（メタデータ） (2024-04-22T15:01:32Z)
Semantic Gaussians: Open-Vocabulary Scene Understanding with 3D Gaussian Splatting [27.974762304763694]
セマンティック・ガウシアン(Semantic Gaussians)は,3次元ガウシアン・スプレイティングをベースとした,新しいオープン語彙シーン理解手法である。既存の手法とは異なり、様々な2次元意味的特徴を3次元ガウスの新たな意味的構成要素にマッピングする多目的投影手法を設計する。我々は,高速な推論のために,生の3Dガウスから意味成分を直接予測する3Dセマンティックネットワークを構築した。
論文参考訳（メタデータ） (2024-03-22T21:28:19Z)
DatasetNeRF: Efficient 3D-aware Data Factory with Generative Radiance Fields [68.94868475824575]
本稿では,無限で高品質な3Dアノテーションを3Dポイントクラウドセグメンテーションとともに生成できる新しいアプローチを提案する。我々は3次元生成モデルに先立って強力なセマンティクスを活用してセマンティクスデコーダを訓練する。トレーニングが完了すると、デコーダは遅延空間を効率よく一般化し、無限のデータの生成を可能にする。
論文参考訳（メタデータ） (2023-11-18T21:58:28Z)
SSR-2D: Semantic 3D Scene Reconstruction from 2D Images [54.46126685716471]
本研究では,3Dアノテーションを使わずにセマンティックなシーン再構成を行う中心的な3Dシーンモデリングタスクについて検討する。提案手法の鍵となる考え方は,不完全な3次元再構成と対応するRGB-D画像の両方を用いたトレーニング可能なモデルの設計である。本研究では,2つの大規模ベンチマークデータセットであるMatterPort3DとScanNetに対して,セマンティックシーン補完の最先端性能を実現する。
論文参考訳（メタデータ） (2023-02-07T17:47:52Z)
Semantic Dense Reconstruction with Consistent Scene Segments [33.0310121044956]
RGB-Dシーケンスから高レベルなシーン理解タスクを解くために,RGB-Dシーケンスから高密度なセマンティック3Dシーンを再構築する手法を提案する。まず、各RGB-Dペアは、カメラ追跡バックボーンに基づいて、一貫して2Dセマンティックマップに分割される。入力されたRGB-Dシーケンスから未知環境の高密度3Dメッシュモデルを漸進的に生成する。
論文参考訳（メタデータ） (2021-09-30T03:01:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。