論文の概要: FastLGS: Speeding up Language Embedded Gaussians with Feature Grid Mapping
- arxiv url: http://arxiv.org/abs/2406.01916v2
- Date: Thu, 8 Aug 2024 01:50:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-09 20:07:02.244176
- Title: FastLGS: Speeding up Language Embedded Gaussians with Feature Grid Mapping
- Title(参考訳): FastLGS: 機能グリッドマッピングによる言語組み込みガウスの高速化
- Authors: Yuzhou Ji, He Zhu, Junshu Tang, Wuyi Liu, Zhizhong Zhang, Yuan Xie, Xin Tan,
- Abstract要約: 我々は高解像度で3Dガウススプラッティング(3DGS)内でリアルタイムなオープン語彙クエリをサポートするアプローチであるFastLGSを提案する。
FastLGSはLERFより98倍、LangSplatより4倍速い。
実験により、FastLGSは3Dセグメンテーションや3Dオブジェクトのインペイントなど、多くの下流タスクに適応し、互換性があることが示されている。
- 参考スコア(独自算出の注目度): 29.5427444688567
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The semantically interactive radiance field has always been an appealing task for its potential to facilitate user-friendly and automated real-world 3D scene understanding applications. However, it is a challenging task to achieve high quality, efficiency and zero-shot ability at the same time with semantics in radiance fields. In this work, we present FastLGS, an approach that supports real-time open-vocabulary query within 3D Gaussian Splatting (3DGS) under high resolution. We propose the semantic feature grid to save multi-view CLIP features which are extracted based on Segment Anything Model (SAM) masks, and map the grids to low dimensional features for semantic field training through 3DGS. Once trained, we can restore pixel-aligned CLIP embeddings through feature grids from rendered features for open-vocabulary queries. Comparisons with other state-of-the-art methods prove that FastLGS can achieve the first place performance concerning both speed and accuracy, where FastLGS is 98x faster than LERF and 4x faster than LangSplat. Meanwhile, experiments show that FastLGS is adaptive and compatible with many downstream tasks, such as 3D segmentation and 3D object inpainting, which can be easily applied to other 3D manipulation systems.
- Abstract(参考訳): セマンティック・インタラクティブなラディアンス・フィールドは、ユーザフレンドリーで自動化された現実世界の3Dシーン理解アプリケーションを促進する可能性に対して、常に魅力的なタスクであった。
しかし,レージアンス分野のセマンティクスを用いて,高品質,効率,ゼロショット能力を同時に達成することは難しい課題である。
本研究では,3次元ガウススプラッティング(3DGS)におけるリアルタイムなオープン語彙クエリをサポートするアプローチであるFastLGSを提案する。
本稿では,Segment Anything Model (SAM) マスクから抽出したマルチビューCLIP機能を保存するためのセマンティック特徴グリッドを提案し,そのグリッドを3DGSによるセマンティックフィールドトレーニングのための低次元特徴にマッピングする。
一度トレーニングすれば、オープン語彙クエリのレンダリング機能からフィーチャーグリッドを通じて、ピクセル整列CLIP埋め込みを復元できます。
FastLGSはLERFより98倍、LangSplatより4倍高速である。
一方、実験により、FastLGSは他の3D操作システムに容易に適用可能な3Dセグメンテーションや3Dオブジェクトのインペインティングなど、多くの下流タスクに適応し互換性があることが示されている。
関連論文リスト
- Text-guided Sparse Voxel Pruning for Efficient 3D Visual Grounding [74.033589504806]
視覚的グラウンド化のための効率的なマルチレベル畳み込みアーキテクチャを提案する。
提案手法はトップ推論速度を達成し,従来の最速の手法を100% FPS で上回っている。
論文 参考訳(メタデータ) (2025-02-14T18:59:59Z) - SLGaussian: Fast Language Gaussian Splatting in Sparse Views [15.0280871846496]
スパース視点から3次元意味体を構築するフィードフォワード手法であるSLGaussianを提案する。
SLGaussianは、3D空間に言語情報を効率よく埋め込むことができ、スパースビュー条件下で正確な3Dシーン理解のための堅牢なソリューションを提供する。
論文 参考訳(メタデータ) (2024-12-11T12:18:30Z) - Occam's LGS: A Simple Approach for Language Gaussian Splatting [57.00354758206751]
言語接地型3次元ガウススプラッティングの高度な技術は、単に不要であることを示す。
オッカムのカミソリを手作業に適用し、重み付けされた多視点特徴集計を行う。
我々の結果は2桁のスピードアップによる最先端の結果を提供する。
論文 参考訳(メタデータ) (2024-12-02T18:50:37Z) - SplatFlow: Multi-View Rectified Flow Model for 3D Gaussian Splatting Synthesis [19.351291267779416]
SplatFlowは3DGSの直接生成と編集を可能にする包括的フレームワークである。
SplatFlowは、マルチビュー整流(RF)モデルとガウス整流デコーダ(GSDecoder)の2つの主要コンポーネントから構成される。
我々は、MVImgNetとDL3DV-7Kデータセット上でSplatFlowの能力を検証し、様々な3D生成、編集、塗装に基づくタスクにおいて、その汎用性と有効性を示す。
論文 参考訳(メタデータ) (2024-11-25T14:46:17Z) - CLIP-GS: CLIP-Informed Gaussian Splatting for Real-time and View-consistent 3D Semantic Understanding [32.76277160013881]
コントラスト言語画像事前学習(CLIP)のセマンティクスをガウススプラッティングに統合するCLIP-GSを提案する。
SACはオブジェクト内の固有の統一意味論を利用して、3Dガウスのコンパクトで効果的な意味表現を学ぶ。
また,3次元モデルから得られた多視点一貫性を利用して,3次元コヒーレント自己学習(3DCS)戦略を導入する。
論文 参考訳(メタデータ) (2024-04-22T15:01:32Z) - LATTE3D: Large-scale Amortized Text-To-Enhanced3D Synthesis [76.43669909525488]
LATTE3Dは400msで3Dオブジェクトを生成し、高速なテストタイム最適化でさらに拡張することができる。
LATTE3Dを導入し、これらの制限に対処し、より大きなプロンプトセット上で高速で高品質な生成を実現する。
論文 参考訳(メタデータ) (2024-03-22T17:59:37Z) - Feature 3DGS: Supercharging 3D Gaussian Splatting to Enable Distilled Feature Fields [54.482261428543985]
ニューラル・ラジアンス・フィールドを使用する手法は、新しいビュー合成のような従来のタスクに汎用的である。
3次元ガウシアンスプラッティングは, 実時間ラディアンス場レンダリングにおける最先端の性能を示した。
この問題を効果的に回避するために,アーキテクチャとトレーニングの変更を提案する。
論文 参考訳(メタデータ) (2023-12-06T00:46:30Z) - 3D-CLFusion: Fast Text-to-3D Rendering with Contrastive Latent Diffusion [55.71215821923401]
我々は、事前訓練された潜伏型NeRF(入力潜伏符号を与えられた3次元オブジェクトを生成するNeRF)によるテキストから3次元生成の課題に取り組む。
本稿では,3D-CLFusion という3D-CLFusion という手法を提案する。
論文 参考訳(メタデータ) (2023-03-21T15:38:26Z) - Fast-SNARF: A Fast Deformer for Articulated Neural Fields [92.68788512596254]
本稿では,標準空間とポーズ空間の正確な対応性を求める,ニューラルフィールドのための新しい調音モジュールFast-SNARFを提案する。
Fast-SNARFはこれまでの研究であるSNARFの代替であり、計算効率は大幅に向上した。
変形マップの学習は多くの3次元人間のアバター法において重要な要素であるため、この研究は3次元仮想人間の実現に向けた重要なステップであると考えている。
論文 参考訳(メタデータ) (2022-11-28T17:55:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。