Fugu-MT 論文翻訳(概要): SLAG: Scalable Language-Augmented Gaussian Splatting

論文の概要: SLAG: Scalable Language-Augmented Gaussian Splatting

arxiv url: http://arxiv.org/abs/2505.08124v1
Date: Mon, 12 May 2025 23:32:24 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-14 20:57:54.362796
Title: SLAG: Scalable Language-Augmented Gaussian Splatting
Title（参考訳）: SLAG: スケーラブルな言語拡張ガウススプレイティング
Authors: Laszlo Szilagyi, Francis Engelmann, Jeannette Bohg,
Abstract要約: 言語拡張されたシーン表現は、検索・救助、スマートシティ、鉱業といった大規模ロボット工学の応用に大きな期待を抱いている。これらのシナリオの多くは時間に敏感で、高速なシーンエンコーディングを必要とする一方で、データ集約型でスケーラブルなソリューションを必要とする。言語拡張されたガウススプラッティングのためのマルチGPUフレームワークであるSLAGを導入し、大きなシーンの埋め込みのスピードとスケーラビリティを向上させる。
参考スコア（独自算出の注目度）: 19.643023058839603
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Language-augmented scene representations hold great promise for large-scale robotics applications such as search-and-rescue, smart cities, and mining. Many of these scenarios are time-sensitive, requiring rapid scene encoding while also being data-intensive, necessitating scalable solutions. Deploying these representations on robots with limited computational resources further adds to the challenge. To address this, we introduce SLAG, a multi-GPU framework for language-augmented Gaussian splatting that enhances the speed and scalability of embedding large scenes. Our method integrates 2D visual-language model features into 3D scenes using SAM and CLIP. Unlike prior approaches, SLAG eliminates the need for a loss function to compute per-Gaussian language embeddings. Instead, it derives embeddings from 3D Gaussian scene parameters via a normalized weighted average, enabling highly parallelized scene encoding. Additionally, we introduce a vector database for efficient embedding storage and retrieval. Our experiments show that SLAG achieves an 18 times speedup in embedding computation on a 16-GPU setup compared to OpenGaussian, while preserving embedding quality on the ScanNet and LERF datasets. For more details, visit our project website: https://slag-project.github.io/.
Abstract（参考訳）: 言語拡張されたシーン表現は、検索・救助、スマートシティ、鉱業といった大規模ロボット工学の応用に大きな期待を抱いている。これらのシナリオの多くは時間に敏感で、高速なシーンエンコーディングを必要とする一方で、データ集約型でスケーラブルなソリューションを必要とする。計算資源が限られているロボットにこれらの表現をデプロイすることは、さらに課題を増している。これを解決するために,言語拡張されたガウススプラッティングのためのマルチGPUフレームワークであるSLAGを導入し,大規模シーンの埋め込みのスピードとスケーラビリティを向上させる。本手法はSAMとCLIPを用いて2次元視覚モデルの特徴を3次元シーンに統合する。従来のアプローチとは異なり、SLAGはガウス語毎の埋め込みを計算する損失関数を不要にしている。代わりに、3次元ガウスシーンパラメータから正規化された重み付き平均による埋め込みを導出し、高度に並列化されたシーンエンコーディングを可能にする。さらに,効率的な埋め込みストレージと検索のためのベクトルデータベースを導入する。実験の結果, SLAG は OpenGaussian と比較して 16-GPU の組込み計算において 18 倍の高速化を実現し, ScanNet および LERF データセットの組込み品質を維持した。詳細については、プロジェクトのWebサイトを参照してください。

関連論文リスト

GaussianVLM: Scene-centric 3D Vision-Language Models using Language-aligned Gaussian Splats for Embodied Reasoning and Beyond [56.677984098204696]
マルチモーダル言語モデルは、VLM(3D Vision-Language Models)の開発を推進している本稿では,言語とタスク認識のシーン表現を用いた3次元ガウシアンスプラットシーンのためのシーン中心の3次元VLMを提案する。本稿では,標準RGB画像から導出した光リアルな3D表現を利用した最初のガウススプラッティングに基づくVLMを提案する。
論文参考訳（メタデータ） (2025-07-01T15:52:59Z)
FlexGS: Train Once, Deploy Everywhere with Many-in-One Flexible 3D Gaussian Splatting [57.97160965244424]
3Dガウススプラッティング(3DGS)は、3Dシーン表現や新しいビュー合成に様々な応用を可能にしている。従来のアプローチでは、重要でないガウス人を刈り取ることに重点を置いており、3DGSを効果的に圧縮している。本稿では3DGSの弾性推論手法を提案する。
論文参考訳（メタデータ） (2025-06-04T17:17:57Z)
LODGE: Level-of-Detail Large-Scale Gaussian Splatting with Efficient Rendering [68.93333348474988]
メモリ制約デバイス上での3次元ガウススプラッティングのための新しいレベル・オブ・ディーテール(LOD)法を提案する。カメラ距離に基づいてガウスの最適部分集合を反復的に選択する。本手法は,屋外(階層型3DGS)と屋内(Zip-NeRF)の両方で最先端の性能を実現する。
論文参考訳（メタデータ） (2025-05-29T06:50:57Z)
SparseGrasp: Robotic Grasping via 3D Semantic Gaussian Splatting from Sparse Multi-View RGB Images [125.66499135980344]
オープンボキャブラリ型ロボットグリップシステムであるSparseGraspを提案する。 SparseGraspはスパースビューのRGBイメージで効率的に動作し、シーン更新を高速に処理する。 SparseGraspは, 高速化と適応性の両方の観点から, 最先端の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-12-03T03:56:01Z)
Occam's LGS: An Efficient Approach for Language Gaussian Splatting [57.00354758206751]
言語3Dガウススプラッティングのための複雑なパイプラインは、単純に不要であることを示す。我々は,オッカムのカミソリを手作業に適用し,高効率な重み付き多視点特徴集約技術を実現する。
論文参考訳（メタデータ） (2024-12-02T18:50:37Z)
SplatLoc: 3D Gaussian Splatting-based Visual Localization for Augmented Reality [50.179377002092416]
より少ないパラメータで高品質なレンダリングが可能な効率的なビジュアルローカライズ手法を提案する。提案手法は,最先端の暗黙的視覚的ローカライゼーションアプローチに対して,より優れた,あるいは同等なレンダリングとローカライゼーション性能を実現する。
論文参考訳（メタデータ） (2024-09-21T08:46:16Z)
CityGaussian: Real-time High-quality Large-Scale Scene Rendering with Gaussians [64.6687065215713]
CityGaussianは、大規模な3DGSのトレーニングとレンダリングを効率化するために、新しい分別/分別トレーニングアプローチとLevel-of-Detail(LoD)戦略を採用している。我々のアプローチは最先端のレンダリング品質を実現し、大規模なシーンを全く異なるスケールで一貫したリアルタイムレンダリングを可能にする。
論文参考訳（メタデータ） (2024-04-01T14:24:40Z)
Compact 3D Scene Representation via Self-Organizing Gaussian Grids [10.816451552362823]
3D Gaussian Splattingは、静的な3Dシーンをモデリングするための非常に有望なテクニックとして最近登場した。本稿では3DGSのパラメータを局所的均一性を持つ2次元グリッドに整理したコンパクトなシーン表現を提案する。本手法は,訓練時間の増加を伴わない複雑なシーンに対して,17倍から42倍の縮小係数を実現する。
論文参考訳（メタデータ） (2023-12-19T20:18:29Z)
EAGLES: Efficient Accelerated 3D Gaussians with Lightweight EncodingS [40.94643885302646]
3Dガウシアンスプラッティング(3D-GS)は、ノベルビューシーンの合成で人気がある。レイディアンス・ニューラル・フィールド(NeRF)に関連する長いトレーニング時間と遅いレンダリング速度の課題に対処する。本稿では,メモリ単位の記憶容量を大幅に削減するために,量子化埋め込みを利用する手法を提案する。
論文参考訳（メタデータ） (2023-12-07T18:59:55Z)
Language Embedded 3D Gaussians for Open-Vocabulary Scene Understanding [2.517953665531978]
オープン語彙クエリタスクのための新しいシーン表現であるLanguage Embedded 3D Gaussiansを紹介する。我々の表現は、現在の言語埋め込み表現において、最高の視覚的品質と言語クエリの精度を達成する。
論文参考訳（メタデータ） (2023-11-30T11:50:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。