論文の概要: X-GS: An Extensible Open Framework Unifying 3DGS Architectures with Downstream Multimodal Models
- arxiv url: http://arxiv.org/abs/2603.09632v1
- Date: Tue, 10 Mar 2026 13:10:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.326096
- Title: X-GS: An Extensible Open Framework Unifying 3DGS Architectures with Downstream Multimodal Models
- Title(参考訳): X-GS:3DGSアーキテクチャと下流マルチモーダルモデルを統合する拡張可能なオープンフレームワーク
- Authors: Yueen Ma, Irwin King,
- Abstract要約: 我々は,リアルタイム3DGSベースのオンラインSLAMを実現するために,幅広い技術を統合するオープンフレームワークであるX-GSを紹介する。
X-GSのコアには、X-GS-Perceiverと呼ばれる高効率なパイプラインがあり、幾何学とポーズを共最適化するための入力として、未提案のRGBビデオストリームを取り込むことができる。
我々は、新しいオンラインベクトル量子化(VQ)モジュール、GPU加速グリッドサンプリング方式、高並列化パイプライン設計によるリアルタイムパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 50.01070135500655
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D Gaussian Splatting (3DGS) has emerged as a powerful technique for novel view synthesis, subsequently extending into numerous spatial AI applications. However, most existing 3DGS methods are isolated, focusing on specific domains such as online SLAM, semantic enrichment, or 3DGS for unposed images. In this paper, we introduce X-GS, an extensible open framework that unifies a broad range of techniques to enable real-time 3DGS-based online SLAM enriched with semantics, bridging the gap to downstream multimodal models. At the core of X-GS is a highly efficient pipeline called X-GS-Perceiver, capable of taking unposed RGB (or optionally RGB-D) video streams as input to co-optimize geometry and poses, and distill high-dimensional semantic features from vision foundation models into the 3D Gaussians. We achieve real-time performance through a novel online Vector Quantization (VQ) module, a GPU-accelerated grid-sampling scheme, and a highly parallelized pipeline design. The semantic 3D Gaussians can then be utilized by vision-language models within the X-GS-Thinker component, enabling downstream tasks such as object detection, zero-shot caption generation, and potentially embodied tasks. Experimental results on real-world datasets showcase the efficacy, efficiency, and newly unlocked multimodal capabilities of the X-GS framework.
- Abstract(参考訳): 3D Gaussian Splatting (3DGS)は、新しいビュー合成の強力な技術として登場し、その後、多くの空間AIアプリケーションに拡張されている。
しかし,既存の3DGS手法の多くは分離されており,オンラインSLAMやセマンティックエンリッチメント,非ポーズ画像の3DGSといった特定の領域に焦点を当てている。
本稿では,リアルタイム3DGSベースのオンラインSLAMにセマンティクスを付加し,下流マルチモーダルモデルとのギャップを埋めることのできる拡張可能なオープンフレームワークであるX-GSを紹介する。
X-GSのコアには、X-GS-Perceiverと呼ばれる高効率のパイプラインがあり、未提案のRGB(またはオプションでRGB-D)ビデオストリームを、共同最適化された幾何学とポーズの入力として取り込んで、視覚基礎モデルから高次元のセマンティック特徴を3Dガウスに蒸留することができる。
我々は、新しいオンラインベクトル量子化(VQ)モジュール、GPU加速グリッドサンプリング方式、高並列化パイプライン設計によるリアルタイムパフォーマンスを実現する。
セマンティックな3Dガウスアンは、X-GS-Thinkerコンポーネント内の視覚言語モデルによって利用でき、オブジェクト検出、ゼロショットキャプション生成、潜在的に具体化されたタスクなどの下流タスクを可能にする。
実世界のデータセットに対する実験結果は、X-GSフレームワークの有効性、効率性、新しくアンロックされたマルチモーダル能力を示す。
関連論文リスト
- Quantile Rendering: Efficiently Embedding High-dimensional Feature on 3D Gaussian Splatting [52.18697134979677]
コンピュータビジョンの最近の進歩は、3Dガウススプラッティング(3D-GS)を活用して、OVS(Open-vocabulary segmentation)を3Dドメインに拡張することに成功している。
既存の方法はコードブックや特徴圧縮を採用しており、情報損失を引き起こし、セグメンテーションの品質が低下する。
本稿では,高忠実度を維持しながら高次元特徴を効率的に処理する3次元ガウスの新たなレンダリング戦略であるQuantile Rendering(Q-Render)を紹介する。
本フレームワークは,512次元特徴写像上での43.7倍の高速化でリアルタイムレンダリングを実現するとともに,最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2025-12-24T04:16:18Z) - Visionary: The World Model Carrier Built on WebGPU-Powered Gaussian Splatting Platform [104.39464309969253]
Visionaryは、リアルタイムな様々なガウススティングとレンダリングのための、オープンでWebネイティブなプラットフォームである。
Visionaryは、軽量で“クリック・トゥ・ラン”なブラウザエクスペリエンスを維持しながら、動的ニューラル処理を可能にする。
論文 参考訳(メタデータ) (2025-12-09T10:54:58Z) - From Volume Rendering to 3D Gaussian Splatting: Theory and Applications [5.318207476146788]
このチュートリアルは、3DGSパイプラインの簡潔で包括的な概要を提供する。
最初はその定式化から始まり、その限界に対処する主な取り組みを探求する。
表面再構成,アバターモデリング,アニメーション,コンテンツ生成に3DGSを利用するアプリケーションについて調査する。
論文 参考訳(メタデータ) (2025-10-20T20:52:41Z) - A Survey on 3D Gaussian Splatting Applications: Segmentation, Editing, and Generation [66.62489208150681]
3D Gaussian Splatting (3DGS)は3Dシーン表現のためのNeRF(Neural Radiance Fields)の強力な代替品として登場した。
このサーベイは、3DGSアプリケーションの最近の進歩を概観する。
論文 参考訳(メタデータ) (2025-08-13T17:44:39Z) - 3DGabSplat: 3D Gabor Splatting for Frequency-adaptive Radiance Field Rendering [50.04967868036964]
3D Gaussian Splatting(3DGS)は、高忠実なノベルビュー合成を維持しながらリアルタイムレンダリングを実現している。
複数方向の3次元周波数応答を持つ新規な3次元ガボルベースプリミティブを組み込んだ3次元ガボルスプレート(3DGabSplat)を提案する。
我々は3D以上の1.35dBRゲインを実現し、同時にプリミティブメモリ消費量を削減した。
論文 参考訳(メタデータ) (2025-08-07T12:49:44Z) - CLIP-GS: Unifying Vision-Language Representation with 3D Gaussian Splatting [88.24743308058441]
3DGSを基盤とした新しいマルチモーダル表現学習フレームワークであるCLIP-GSを提案する。
我々は,3DGS,画像,テキストの三重項を生成する効率的な方法を開発し,CLIP-GSによるマルチモーダル表現の学習を容易にする。
論文 参考訳(メタデータ) (2024-12-26T09:54:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。