論文の概要: S2GS: Streaming Semantic Gaussian Splatting for Online Scene Understanding and Reconstruction
- arxiv url: http://arxiv.org/abs/2603.14232v1
- Date: Sun, 15 Mar 2026 05:48:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.688794
- Title: S2GS: Streaming Semantic Gaussian Splatting for Online Scene Understanding and Reconstruction
- Title(参考訳): S2GS:オンラインシーン理解と再構築のためのセマンティックガウススプレイティング
- Authors: Renhe Zhang, Yuyang Tan, Jingyu Gong, Zhizhong Zhang, Lizhuang Ma, Yuan Xie, Xin Tan,
- Abstract要約: Streaming Semantic Gaussian Splatting (S2GS) は厳密に因果的かつ漸進的な3D Gaussianセマンティックフィールドフレームワークである。
将来のフレームを活用せず、歴史的フレームを再処理することなく、シーンの幾何学、外観、インスタンスレベルのセマンティクスを継続的に更新する。
S2GSは、ジョイントリコンストラクションとアンダーホールドのベンチマークにおいて、強いオフラインベースラインをマッチまたは上回る。
- 参考スコア(独自算出の注目度): 57.07346645250984
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing offline feed-forward methods for joint scene understanding and reconstruction on long image streams often repeatedly perform global computation over an ever-growing set of past observations, causing runtime and GPU memory to increase rapidly with sequence length and limiting scalability. We propose Streaming Semantic Gaussian Splatting (S2GS), a strictly causal, incremental 3D Gaussian semantic field framework: it does not leverage future frames and continuously updates scene geometry, appearance, and instance-level semantics without reprocessing historical frames, enabling scalable online joint reconstruction and understanding. S2GS adopts a geometry-semantic decoupled dual-backbone design: the geometry branch performs causal modeling to drive incremental Gaussian updates, while the semantic branch leverages a 2D foundation vision model and a query-driven decoder to predict segmentation masks and identity embeddings, further stabilized by query-level contrastive alignment and lightweight online association with an instance memory. Experiments show that S2GS matches or outperforms strong offline baselines on joint reconstruction-and-understanding benchmarks, while significantly improving long-horizon scalability: it processes 1,000+ frames with much slower growth in runtime and GPU memory, whereas offline global-processing baselines typically run out of memory at around 80 frames under the same setting.
- Abstract(参考訳): 既存のオフラインフィードフォワード方式では、長い画像ストリームに対する共同シーンの理解と再構築が可能であり、しばしば過去の観測結果に対するグローバルな計算を繰り返し実行し、実行時とGPUメモリは、シーケンス長とスケーラビリティの制限により急速に増大する。
S2GS(Streaming Semantic Gaussian Splatting)は、厳密な因果的・漸進的な3次元ガウス意味論フレームワークであり、将来のフレームを活用せず、歴史的フレームを再処理することなくシーンの幾何学、外観、インスタンスレベルの意味論を継続的に更新し、スケーラブルなオンライン共同再構築と理解を可能にする。
S2GSはジオメトリ・セマンティック・デカップリングされたデュアルバックボーンの設計を採用しており、ジオメトリ・ブランチはインクリメンタルなガウス的更新を駆動するための因果モデリングを行い、セグメンテーション・マスクとアイデンティティ・埋め込みを予測するためにセグメンテーション・マスクとクエリ駆動デコーダを活用し、クエリレベルのコントラスト・アライメントとインスタンス・メモリとの軽量なオンラインアソシエーションによって安定化されている。
実験によると、S2GSは共同再構築とアンダーバックのベンチマークで強いオフラインベースラインと一致または性能を向上し、長期スケーラビリティを大幅に改善している。ランタイムとGPUメモリの伸びが大幅に遅い1000以上のフレームを処理するのに対して、オフラインのグローバル処理ベースラインは、通常、80フレーム前後でメモリが切れている。
関連論文リスト
- LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory [97.14005794889134]
提案するLoGeRは,高密度な3次元再構成を,後最適化なしで極めて長いシーケンスに拡張する新しいアーキテクチャである。
LoGeRはビデオストリームをチャンクで処理し、高忠実度なチャンク内推論に強力な双方向の事前処理を活用する。
このメモリアーキテクチャにより、LoGeRは128フレームのシーケンスでトレーニングでき、推論中に数千フレームまで一般化できる。
論文 参考訳(メタデータ) (2026-03-03T18:55:37Z) - RELIC: Interactive Video World Model with Long-Horizon Memory [74.81433479334821]
真のインタラクティブな世界モデルは、リアルタイムの長距離ストリーミング、一貫した空間記憶、正確なユーザ制御を必要とする。
この3つの課題を完全に解決する統合フレームワークであるRELICを紹介します。
単一の画像とテキスト記述が与えられた後、RELICは任意のシーンをリアルタイムにメモリを意識した長期探索を可能にする。
論文 参考訳(メタデータ) (2025-12-03T18:29:20Z) - TGSFormer: Scalable Temporal Gaussian Splatting for Embodied Semantic Scene Completion [38.31128137855632]
Embodied 3D Semantic Scene Completionは、連続した自我中心の観測から密集した幾何学と意味を推測する。
最近のDeep-Guidedアプローチはこの問題を軽減するが、スケールが増加するにつれてレイテンシとメモリオーバーヘッドに悩まされ、ローカルのままである。
SSCを具現化するための拡張性のある時空間ガウス分割フレームワーク TGSFormer を提案する。
論文 参考訳(メタデータ) (2025-11-29T03:47:14Z) - Local2Global query Alignment for Video Instance Segmentation [6.422775545814375]
ビデオセグメンテーション手法は、長いシーケンスの処理と段階的な変化のキャプチャに優れ、現実世界のアプリケーションに最適である。
本稿では,オンラインセグメンテーションなどのオンラインフレームワークであるLocal2Globalを紹介する。
ローカルクエリとグローバルクエリの早期アライメントを容易にするために,新しいトランスフォーマーデコーダであるL2G-alignerを提案する。
論文 参考訳(メタデータ) (2025-07-27T04:04:01Z) - StreamGS: Online Generalizable Gaussian Splatting Reconstruction for Unposed Image Streams [32.91936079359693]
本稿では,非ポーズ画像ストリームのための3DGS再構成手法であるStreamGSを提案する。
StreamGSは、画像ストリームを3Dガウスストリームに変換する。
多様なデータセットの実験では、StreamGSは最適化ベースのアプローチと同等の品質を実現しているが、150倍高速であることが示された。
論文 参考訳(メタデータ) (2025-03-08T14:35:39Z) - InstantSplat: Sparse-view Gaussian Splatting in Seconds [91.77050739918037]
InstantSplatは,光速でスパークビュー3Dシーンを再現する新しい手法である。
InstantSplatでは,3Dシーン表現とカメラポーズを最適化する,自己管理フレームワークを採用している。
3D-GSの従来のSfMと比較して、30倍以上の再現を達成し、視覚的品質(SSIM)を0.3755から0.7624に改善する。
論文 参考訳(メタデータ) (2024-03-29T17:29:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。