論文の概要: FastLGS: Speeding up Language Embedded Gaussians with Feature Grid Mapping
- arxiv url: http://arxiv.org/abs/2406.01916v1
- Date: Tue, 4 Jun 2024 02:57:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 20:13:20.297031
- Title: FastLGS: Speeding up Language Embedded Gaussians with Feature Grid Mapping
- Title(参考訳): FastLGS: 機能グリッドマッピングによる言語組み込みガウスの高速化
- Authors: Yuzhou Ji, He Zhu, Junshu Tang, Wuyi Liu, Zhizhong Zhang, Yuan Xie, Lizhuang Ma, Xin Tan,
- Abstract要約: 我々は高解像度で3Dガウススプラッティング(3DGS)内でリアルタイムなオープン語彙クエリをサポートするアプローチであるFastLGSを提案する。
FastLGSはLERFより98倍、LangSplatより4倍速い。
実験により、FastLGSは3Dセグメンテーションや3Dオブジェクトのインペイントなど、多くの下流タスクに適応し、互換性があることが示されている。
- 参考スコア(独自算出の注目度): 48.4447446956031
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The semantically interactive radiance field has always been an appealing task for its potential to facilitate user-friendly and automated real-world 3D scene understanding applications. However, it is a challenging task to achieve high quality, efficiency and zero-shot ability at the same time with semantics in radiance fields. In this work, we present FastLGS, an approach that supports real-time open-vocabulary query within 3D Gaussian Splatting (3DGS) under high resolution. We propose the semantic feature grid to save multi-view CLIP features which are extracted based on Segment Anything Model (SAM) masks, and map the grids to low dimensional features for semantic field training through 3DGS. Once trained, we can restore pixel-aligned CLIP embeddings through feature grids from rendered features for open-vocabulary queries. Comparisons with other state-of-the-art methods prove that FastLGS can achieve the first place performance concerning both speed and accuracy, where FastLGS is 98x faster than LERF and 4x faster than LangSplat. Meanwhile, experiments show that FastLGS is adaptive and compatible with many downstream tasks, such as 3D segmentation and 3D object inpainting, which can be easily applied to other 3D manipulation systems.
- Abstract(参考訳): セマンティック・インタラクティブなラディアンス・フィールドは、ユーザフレンドリーで自動化された現実世界の3Dシーン理解アプリケーションを促進する可能性に対して、常に魅力的なタスクであった。
しかし,レージアンス分野のセマンティクスを用いて,高品質,効率,ゼロショット能力を同時に達成することは難しい課題である。
本研究では,3次元ガウススプラッティング(3DGS)におけるリアルタイムなオープン語彙クエリをサポートするアプローチであるFastLGSを提案する。
本稿では,Segment Anything Model (SAM) マスクから抽出したマルチビューCLIP機能を保存するためのセマンティック特徴グリッドを提案し,そのグリッドを3DGSによるセマンティックフィールドトレーニングのための低次元特徴にマッピングする。
一度トレーニングすれば、オープン語彙クエリのレンダリング機能からフィーチャーグリッドを通じて、ピクセル整列CLIP埋め込みを復元できます。
FastLGSはLERFより98倍、LangSplatより4倍高速である。
一方、実験により、FastLGSは他の3D操作システムに容易に適用可能な3Dセグメンテーションや3Dオブジェクトのインペインティングなど、多くの下流タスクに適応し互換性があることが示されている。
関連論文リスト
- SplatFlow: Multi-View Rectified Flow Model for 3D Gaussian Splatting Synthesis [19.351291267779416]
SplatFlowは3DGSの直接生成と編集を可能にする包括的フレームワークである。
SplatFlowは、マルチビュー整流(RF)モデルとガウス整流デコーダ(GSDecoder)の2つの主要コンポーネントから構成される。
我々は、MVImgNetとDL3DV-7Kデータセット上でSplatFlowの能力を検証し、様々な3D生成、編集、塗装に基づくタスクにおいて、その汎用性と有効性を示す。
論文 参考訳(メタデータ) (2024-11-25T14:46:17Z) - Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model [51.83436609094658]
本稿では,2次元画像を入力として,MLLMの時空間推論を強化する軽量な手法である粗対応を導入する。
本手法は,映像のフレーム間や異なる視点における主物体の対応性を特定するために,軽量な追跡モデルを用いている。
この単純なトレーニングフリーアプローチは、4つのベンチマークでGPT4-V/Oに一定の利得をもたらすことを実証する。
論文 参考訳(メタデータ) (2024-08-01T17:57:12Z) - CLIP-GS: CLIP-Informed Gaussian Splatting for Real-time and View-consistent 3D Semantic Understanding [32.76277160013881]
コントラスト言語画像事前学習(CLIP)のセマンティクスをガウススプラッティングに統合するCLIP-GSを提案する。
SACはオブジェクト内の固有の統一意味論を利用して、3Dガウスのコンパクトで効果的な意味表現を学ぶ。
また,3次元モデルから得られた多視点一貫性を利用して,3次元コヒーレント自己学習(3DCS)戦略を導入する。
論文 参考訳(メタデータ) (2024-04-22T15:01:32Z) - Semantic Gaussians: Open-Vocabulary Scene Understanding with 3D Gaussian Splatting [27.974762304763694]
セマンティック・ガウシアン(Semantic Gaussians)は,3次元ガウシアン・スプレイティングをベースとした,新しいオープン語彙シーン理解手法である。
既存の手法とは異なり、様々な2次元意味的特徴を3次元ガウスの新たな意味的構成要素にマッピングする多目的投影手法を設計する。
我々は,高速な推論のために,生の3Dガウスから意味成分を直接予測する3Dセマンティックネットワークを構築した。
論文 参考訳(メタデータ) (2024-03-22T21:28:19Z) - LATTE3D: Large-scale Amortized Text-To-Enhanced3D Synthesis [76.43669909525488]
LATTE3Dは400msで3Dオブジェクトを生成し、高速なテストタイム最適化でさらに拡張することができる。
LATTE3Dを導入し、これらの制限に対処し、より大きなプロンプトセット上で高速で高品質な生成を実現する。
論文 参考訳(メタデータ) (2024-03-22T17:59:37Z) - Feature 3DGS: Supercharging 3D Gaussian Splatting to Enable Distilled Feature Fields [54.482261428543985]
ニューラル・ラジアンス・フィールドを使用する手法は、新しいビュー合成のような従来のタスクに汎用的である。
3次元ガウシアンスプラッティングは, 実時間ラディアンス場レンダリングにおける最先端の性能を示した。
この問題を効果的に回避するために,アーキテクチャとトレーニングの変更を提案する。
論文 参考訳(メタデータ) (2023-12-06T00:46:30Z) - 3D-CLFusion: Fast Text-to-3D Rendering with Contrastive Latent Diffusion [55.71215821923401]
我々は、事前訓練された潜伏型NeRF(入力潜伏符号を与えられた3次元オブジェクトを生成するNeRF)によるテキストから3次元生成の課題に取り組む。
本稿では,3D-CLFusion という3D-CLFusion という手法を提案する。
論文 参考訳(メタデータ) (2023-03-21T15:38:26Z) - Fast-SNARF: A Fast Deformer for Articulated Neural Fields [92.68788512596254]
本稿では,標準空間とポーズ空間の正確な対応性を求める,ニューラルフィールドのための新しい調音モジュールFast-SNARFを提案する。
Fast-SNARFはこれまでの研究であるSNARFの代替であり、計算効率は大幅に向上した。
変形マップの学習は多くの3次元人間のアバター法において重要な要素であるため、この研究は3次元仮想人間の実現に向けた重要なステップであると考えている。
論文 参考訳(メタデータ) (2022-11-28T17:55:34Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。