Fugu-MT 論文翻訳(概要): FastLGS: Speeding up Language Embedded Gaussians with Feature Grid Mapping

論文の概要: FastLGS: Speeding up Language Embedded Gaussians with Feature Grid Mapping

arxiv url: http://arxiv.org/abs/2406.01916v1
Date: Tue, 4 Jun 2024 02:57:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-05 20:13:20.297031
Title: FastLGS: Speeding up Language Embedded Gaussians with Feature Grid Mapping
Title（参考訳）: FastLGS: 機能グリッドマッピングによる言語組み込みガウスの高速化
Authors: Yuzhou Ji, He Zhu, Junshu Tang, Wuyi Liu, Zhizhong Zhang, Yuan Xie, Lizhuang Ma, Xin Tan,
Abstract要約: 我々は高解像度で3Dガウススプラッティング(3DGS)内でリアルタイムなオープン語彙クエリをサポートするアプローチであるFastLGSを提案する。 FastLGSはLERFより98倍、LangSplatより4倍速い。実験により、FastLGSは3Dセグメンテーションや3Dオブジェクトのインペイントなど、多くの下流タスクに適応し、互換性があることが示されている。
参考スコア（独自算出の注目度）: 48.4447446956031
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: The semantically interactive radiance field has always been an appealing task for its potential to facilitate user-friendly and automated real-world 3D scene understanding applications. However, it is a challenging task to achieve high quality, efficiency and zero-shot ability at the same time with semantics in radiance fields. In this work, we present FastLGS, an approach that supports real-time open-vocabulary query within 3D Gaussian Splatting (3DGS) under high resolution. We propose the semantic feature grid to save multi-view CLIP features which are extracted based on Segment Anything Model (SAM) masks, and map the grids to low dimensional features for semantic field training through 3DGS. Once trained, we can restore pixel-aligned CLIP embeddings through feature grids from rendered features for open-vocabulary queries. Comparisons with other state-of-the-art methods prove that FastLGS can achieve the first place performance concerning both speed and accuracy, where FastLGS is 98x faster than LERF and 4x faster than LangSplat. Meanwhile, experiments show that FastLGS is adaptive and compatible with many downstream tasks, such as 3D segmentation and 3D object inpainting, which can be easily applied to other 3D manipulation systems.
Abstract（参考訳）: セマンティック・インタラクティブなラディアンス・フィールドは、ユーザフレンドリーで自動化された現実世界の3Dシーン理解アプリケーションを促進する可能性に対して、常に魅力的なタスクであった。しかし,レージアンス分野のセマンティクスを用いて,高品質,効率,ゼロショット能力を同時に達成することは難しい課題である。本研究では,3次元ガウススプラッティング(3DGS)におけるリアルタイムなオープン語彙クエリをサポートするアプローチであるFastLGSを提案する。本稿では,Segment Anything Model (SAM) マスクから抽出したマルチビューCLIP機能を保存するためのセマンティック特徴グリッドを提案し,そのグリッドを3DGSによるセマンティックフィールドトレーニングのための低次元特徴にマッピングする。一度トレーニングすれば、オープン語彙クエリのレンダリング機能からフィーチャーグリッドを通じて、ピクセル整列CLIP埋め込みを復元できます。 FastLGSはLERFより98倍、LangSplatより4倍高速である。一方、実験により、FastLGSは他の3D操作システムに容易に適用可能な3Dセグメンテーションや3Dオブジェクトのインペインティングなど、多くの下流タスクに適応し互換性があることが示されている。

関連論文リスト

EmbodiedSplat: Online Feed-Forward Semantic 3DGS for Open-Vocabulary 3D Scene Understanding [66.80528512321106]
EmbodiedSplatは、オープン語彙シーン理解のためのオンラインフィードフォワード3DGSである。目的は,1)300以上のストリーミング画像からシーン全体のセマンティック埋め込み3DGSをオンライン的に再構成すること,2)フィードフォワードデザインの新規シーンに高度に一般化することである。
論文参考訳（メタデータ） (2026-03-04T16:40:41Z)
Quantile Rendering: Efficiently Embedding High-dimensional Feature on 3D Gaussian Splatting [52.18697134979677]
コンピュータビジョンの最近の進歩は、3Dガウススプラッティング(3D-GS)を活用して、OVS(Open-vocabulary segmentation)を3Dドメインに拡張することに成功している。既存の方法はコードブックや特徴圧縮を採用しており、情報損失を引き起こし、セグメンテーションの品質が低下する。本稿では,高忠実度を維持しながら高次元特徴を効率的に処理する3次元ガウスの新たなレンダリング戦略であるQuantile Rendering(Q-Render)を紹介する。本フレームワークは,512次元特徴写像上での43.7倍の高速化でリアルタイムレンダリングを実現するとともに,最先端の手法よりも優れる。
論文参考訳（メタデータ） (2025-12-24T04:16:18Z)
GS-RoadPatching: Inpainting Gaussians via 3D Searching and Placing for Driving Scenes [19.288891609639602]
GS-RoadPatching(GS-RoadPatching)は、完全に再構成された領域を参照してシーン完了を駆動する方法である。提案手法は,3DGSモダリティによる代替シーンの塗り絵や編集を可能にする。
論文参考訳（メタデータ） (2025-09-24T09:44:37Z)
SAGOnline: Segment Any Gaussians Online [17.33447710659887]
3D Gaussian Splatting (3DGS) は、明示的な3Dシーン表現のための強力なパラダイムとして登場した。現在の手法では, 計算コストの禁止, 空間的推論の制限, 複数物体の同時追跡が困難となっている。 Segment Any Gaussians Online (SAGOnline) はガウスシーンにおけるリアルタイム3Dセグメンテーションのための軽量でゼロショットのフレームワークである。
論文参考訳（メタデータ） (2025-08-11T17:38:50Z)
FROSS: Faster-than-Real-Time Online 3D Semantic Scene Graph Generation from RGB-D Images [8.271449021226417]
本稿では,オンラインで高速な3D SSG生成技術であるFROSS(Faster-than-Real-Time Online 3D Semantic Scene Graph Generation)を提案する。このフレームワークは、正確で計算集約的なポイントクラウド処理への依存を取り除く。実験により、FROSSは従来の3次元生成法よりもはるかに高速に動作しながら、優れた性能が得られることが示された。
論文参考訳（メタデータ） (2025-07-26T16:16:52Z)
LODGE: Level-of-Detail Large-Scale Gaussian Splatting with Efficient Rendering [68.93333348474988]
メモリ制約デバイス上での3次元ガウススプラッティングのための新しいレベル・オブ・ディーテール(LOD)法を提案する。カメラ距離に基づいてガウスの最適部分集合を反復的に選択する。本手法は,屋外(階層型3DGS)と屋内(Zip-NeRF)の両方で最先端の性能を実現する。
論文参考訳（メタデータ） (2025-05-29T06:50:57Z)
FMLGS: Fast Multilevel Language Embedded Gaussians for Part-level Interactive Agents [23.620615939511254]
FMLGSは3次元ガウススプラッティングにおける部分レベルのオープン語彙クエリをサポートするアプローチである(3DGS)。対象部品間の言語あいまいさを解消する意味的偏差戦略を考案した。提案手法は, 特定対象の特定だけでなく, 速度と精度の両面において, 最優先性能を達成できる。
論文参考訳（メタデータ） (2025-04-11T14:33:27Z)
econSG: Efficient and Multi-view Consistent Open-Vocabulary 3D Semantic Gaussians [56.85804719947]
3DGSを用いたオープン語彙セマンティックセマンティックセグメンテーションのためのeconSGを提案する。筆者らのeconSGは,既存手法と比較して,4つのベンチマークデータセット上での最先端性能を示す。
論文参考訳（メタデータ） (2025-04-08T13:12:31Z)
EVolSplat: Efficient Volume-based Gaussian Splatting for Urban View Synthesis [61.1662426227688]
既存のNeRFおよび3DGSベースの手法は、フォトリアリスティックレンダリングを実現する上で有望な結果を示すが、スローでシーンごとの最適化が必要である。本稿では,都市景観を対象とした効率的な3次元ガウススプレイティングモデルEVolSplatを紹介する。
論文参考訳（メタデータ） (2025-03-26T02:47:27Z)
TSP3D: Text-guided Sparse Voxel Pruning for Efficient 3D Visual Grounding [74.033589504806]
視覚的グラウンド化のための効率的なマルチレベル畳み込みアーキテクチャを提案する。提案手法はトップ推論速度を達成し,従来の最速の手法を100% FPS で上回っている。
論文参考訳（メタデータ） (2025-02-14T18:59:59Z)
SLGaussian: Fast Language Gaussian Splatting in Sparse Views [15.0280871846496]
スパース視点から3次元意味体を構築するフィードフォワード手法であるSLGaussianを提案する。 SLGaussianは、3D空間に言語情報を効率よく埋め込むことができ、スパースビュー条件下で正確な3Dシーン理解のための堅牢なソリューションを提供する。
論文参考訳（メタデータ） (2024-12-11T12:18:30Z)
SplatFlow: Multi-View Rectified Flow Model for 3D Gaussian Splatting Synthesis [19.351291267779416]
SplatFlowは3DGSの直接生成と編集を可能にする包括的フレームワークである。 SplatFlowは、マルチビュー整流(RF)モデルとガウス整流デコーダ(GSDecoder)の2つの主要コンポーネントから構成される。我々は、MVImgNetとDL3DV-7Kデータセット上でSplatFlowの能力を検証し、様々な3D生成、編集、塗装に基づくタスクにおいて、その汎用性と有効性を示す。
論文参考訳（メタデータ） (2024-11-25T14:46:17Z)
Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model [51.83436609094658]
本稿では,2次元画像を入力として,MLLMの時空間推論を強化する軽量な手法である粗対応を導入する。本手法は,映像のフレーム間や異なる視点における主物体の対応性を特定するために,軽量な追跡モデルを用いている。この単純なトレーニングフリーアプローチは、4つのベンチマークでGPT4-V/Oに一定の利得をもたらすことを実証する。
論文参考訳（メタデータ） (2024-08-01T17:57:12Z)
CLIP-GS: CLIP-Informed Gaussian Splatting for Real-time and View-consistent 3D Semantic Understanding [32.76277160013881]
コントラスト言語画像事前学習(CLIP)のセマンティクスをガウススプラッティングに統合するCLIP-GSを提案する。 SACはオブジェクト内の固有の統一意味論を利用して、3Dガウスのコンパクトで効果的な意味表現を学ぶ。また,3次元モデルから得られた多視点一貫性を利用して,3次元コヒーレント自己学習(3DCS)戦略を導入する。
論文参考訳（メタデータ） (2024-04-22T15:01:32Z)
Semantic Gaussians: Open-Vocabulary Scene Understanding with 3D Gaussian Splatting [27.974762304763694]
セマンティック・ガウシアン(Semantic Gaussians)は,3次元ガウシアン・スプレイティングをベースとした,新しいオープン語彙シーン理解手法である。既存の手法とは異なり、様々な2次元意味的特徴を3次元ガウスの新たな意味的構成要素にマッピングする多目的投影手法を設計する。我々は,高速な推論のために,生の3Dガウスから意味成分を直接予測する3Dセマンティックネットワークを構築した。
論文参考訳（メタデータ） (2024-03-22T21:28:19Z)
LATTE3D: Large-scale Amortized Text-To-Enhanced3D Synthesis [76.43669909525488]
LATTE3Dは400msで3Dオブジェクトを生成し、高速なテストタイム最適化でさらに拡張することができる。 LATTE3Dを導入し、これらの制限に対処し、より大きなプロンプトセット上で高速で高品質な生成を実現する。
論文参考訳（メタデータ） (2024-03-22T17:59:37Z)
Feature 3DGS: Supercharging 3D Gaussian Splatting to Enable Distilled Feature Fields [54.482261428543985]
ニューラル・ラジアンス・フィールドを使用する手法は、新しいビュー合成のような従来のタスクに汎用的である。 3次元ガウシアンスプラッティングは, 実時間ラディアンス場レンダリングにおける最先端の性能を示した。この問題を効果的に回避するために,アーキテクチャとトレーニングの変更を提案する。
論文参考訳（メタデータ） (2023-12-06T00:46:30Z)
3D-CLFusion: Fast Text-to-3D Rendering with Contrastive Latent Diffusion [55.71215821923401]
我々は、事前訓練された潜伏型NeRF(入力潜伏符号を与えられた3次元オブジェクトを生成するNeRF)によるテキストから3次元生成の課題に取り組む。本稿では,3D-CLFusion という3D-CLFusion という手法を提案する。
論文参考訳（メタデータ） (2023-03-21T15:38:26Z)
Fast-SNARF: A Fast Deformer for Articulated Neural Fields [92.68788512596254]
本稿では,標準空間とポーズ空間の正確な対応性を求める,ニューラルフィールドのための新しい調音モジュールFast-SNARFを提案する。 Fast-SNARFはこれまでの研究であるSNARFの代替であり、計算効率は大幅に向上した。変形マップの学習は多くの3次元人間のアバター法において重要な要素であるため、この研究は3次元仮想人間の実現に向けた重要なステップであると考えている。
論文参考訳（メタデータ） (2022-11-28T17:55:34Z)
A Real-time Action Representation with Temporal Encoding and Deep Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。 T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文参考訳（メタデータ） (2020-06-17T06:30:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。