論文の概要: X-GS: An Extensible Open Framework for Perceiving and Thinking via 3D Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2603.09632v2
- Date: Thu, 12 Mar 2026 07:14:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.455294
- Title: X-GS: An Extensible Open Framework for Perceiving and Thinking via 3D Gaussian Splatting
- Title(参考訳): X-GS:3Dガウススプレイティングによる知覚と思考のための拡張可能なオープンフレームワーク
- Authors: Yueen Ma, Zenglin Xu, Irwin King,
- Abstract要約: 我々は、X-GS-PerceiverとX-GS-Thinkerの2つの主要コンポーネントからなるオープンフレームワークであるX-GSを紹介する。
Perceiverは、リアルタイムオンラインSLAMを可能にするために、幅広い3DGS技術を統合する。
Thinkerは視覚サンプリングモデルに対応し、結果の3Dセマンティック・ガウシアンを使用し、オブジェクト検出、キャプション生成、潜在的に具体化されたタスクなどの下流アプリケーションを可能にする。
- 参考スコア(独自算出の注目度): 72.02343855552051
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D Gaussian Splatting (3DGS) has emerged as a powerful technique for novel view synthesis, subsequently extending into numerous spatial AI applications. However, most existing 3DGS methods operate in isolation, focusing on specific domains such as pose-free 3DGS, online SLAM, and semantic enrichment. In this paper, we introduce X-GS, an extensible open framework consisting of two major components: the X-GS-Perceiver, which unifies a broad range of 3DGS techniques to enable real-time online SLAM and distill semantic features; and the X-GS-Thinker, which interfaces with downstream multimodal models. In our implementation of the Perceiver, we integrate various 3DGS methods through three novel mechanisms: an online Vector Quantization (VQ) module, a GPU-accelerated grid-sampling scheme, and a highly parallelized pipeline design. The Thinker accommodates vision-language models and utilizes the resulting 3D semantic Gaussians, enabling downstream applications such as object detection, caption generation, and potentially embodied tasks. Experimental results on real-world datasets demonstrate the efficiency and newly unlocked multimodal capabilities of the X-GS framework.
- Abstract(参考訳): 3D Gaussian Splatting (3DGS)は、新しいビュー合成の強力な技術として登場し、その後、多くの空間AIアプリケーションに拡張されている。
しかし、既存の3DGSメソッドの多くは独立して動作しており、ポーズフリーの3DGS、オンラインSLAM、セマンティックエンリッチメントといった特定のドメインに焦点を当てている。
本稿では,2つの主要なコンポーネントからなる拡張可能なオープンフレームワークであるX-GSを紹介する。X-GS-Perceiverは,リアルタイムオンラインSLAMと蒸留セマンティック機能を実現するために,広範囲な3DGS技術を統一し,下流マルチモーダルモデルとインターフェースするX-GS-Thinkerである。
Perceiverの実装において、オンラインベクトル量子化(VQ)モジュール、GPU加速グリッドサンプリングスキーム、高並列化パイプライン設計という3つの新しいメカニズムを通じて、様々な3DGS手法を統合する。
Thinkerは視覚言語モデルに対応し、結果の3Dセマンティック・ガウシアンを使用し、オブジェクト検出、キャプション生成、潜在的に具体化されたタスクなどの下流アプリケーションを可能にする。
実世界のデータセットに対する実験結果は,X-GSフレームワークの効率性と,新たにアンロックされたマルチモーダル能力を示す。
関連論文リスト
- Quantile Rendering: Efficiently Embedding High-dimensional Feature on 3D Gaussian Splatting [52.18697134979677]
コンピュータビジョンの最近の進歩は、3Dガウススプラッティング(3D-GS)を活用して、OVS(Open-vocabulary segmentation)を3Dドメインに拡張することに成功している。
既存の方法はコードブックや特徴圧縮を採用しており、情報損失を引き起こし、セグメンテーションの品質が低下する。
本稿では,高忠実度を維持しながら高次元特徴を効率的に処理する3次元ガウスの新たなレンダリング戦略であるQuantile Rendering(Q-Render)を紹介する。
本フレームワークは,512次元特徴写像上での43.7倍の高速化でリアルタイムレンダリングを実現するとともに,最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2025-12-24T04:16:18Z) - Visionary: The World Model Carrier Built on WebGPU-Powered Gaussian Splatting Platform [104.39464309969253]
Visionaryは、リアルタイムな様々なガウススティングとレンダリングのための、オープンでWebネイティブなプラットフォームである。
Visionaryは、軽量で“クリック・トゥ・ラン”なブラウザエクスペリエンスを維持しながら、動的ニューラル処理を可能にする。
論文 参考訳(メタデータ) (2025-12-09T10:54:58Z) - From Volume Rendering to 3D Gaussian Splatting: Theory and Applications [5.318207476146788]
このチュートリアルは、3DGSパイプラインの簡潔で包括的な概要を提供する。
最初はその定式化から始まり、その限界に対処する主な取り組みを探求する。
表面再構成,アバターモデリング,アニメーション,コンテンツ生成に3DGSを利用するアプリケーションについて調査する。
論文 参考訳(メタデータ) (2025-10-20T20:52:41Z) - A Survey on 3D Gaussian Splatting Applications: Segmentation, Editing, and Generation [66.62489208150681]
3D Gaussian Splatting (3DGS)は3Dシーン表現のためのNeRF(Neural Radiance Fields)の強力な代替品として登場した。
このサーベイは、3DGSアプリケーションの最近の進歩を概観する。
論文 参考訳(メタデータ) (2025-08-13T17:44:39Z) - 3DGabSplat: 3D Gabor Splatting for Frequency-adaptive Radiance Field Rendering [50.04967868036964]
3D Gaussian Splatting(3DGS)は、高忠実なノベルビュー合成を維持しながらリアルタイムレンダリングを実現している。
複数方向の3次元周波数応答を持つ新規な3次元ガボルベースプリミティブを組み込んだ3次元ガボルスプレート(3DGabSplat)を提案する。
我々は3D以上の1.35dBRゲインを実現し、同時にプリミティブメモリ消費量を削減した。
論文 参考訳(メタデータ) (2025-08-07T12:49:44Z) - CLIP-GS: Unifying Vision-Language Representation with 3D Gaussian Splatting [88.24743308058441]
3DGSを基盤とした新しいマルチモーダル表現学習フレームワークであるCLIP-GSを提案する。
我々は,3DGS,画像,テキストの三重項を生成する効率的な方法を開発し,CLIP-GSによるマルチモーダル表現の学習を容易にする。
論文 参考訳(メタデータ) (2024-12-26T09:54:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。