論文の概要: SAGOnline: Segment Any Gaussians Online
- arxiv url: http://arxiv.org/abs/2508.08219v1
- Date: Mon, 11 Aug 2025 17:38:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.240388
- Title: SAGOnline: Segment Any Gaussians Online
- Title(参考訳): SAGOnline: ガウシアンをオンラインにセグメント
- Authors: Wentao Sun, Quanyun Wu, Hanqing Xu, Kyle Gao, Zhengsen Xu, Yiping Chen, Dedong Zhang, Lingfei Ma, John S. Zelek, Jonathan Li,
- Abstract要約: 3D Gaussian Splatting (3DGS) は、明示的な3Dシーン表現のための強力なパラダイムとして登場した。
現在の手法では, 計算コストの禁止, 空間的推論の制限, 複数物体の同時追跡が困難となっている。
Segment Any Gaussians Online (SAGOnline) はガウスシーンにおけるリアルタイム3Dセグメンテーションのための軽量でゼロショットのフレームワークである。
- 参考スコア(独自算出の注目度): 17.33447710659887
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D Gaussian Splatting (3DGS) has emerged as a powerful paradigm for explicit 3D scene representation, yet achieving efficient and consistent 3D segmentation remains challenging. Current methods suffer from prohibitive computational costs, limited 3D spatial reasoning, and an inability to track multiple objects simultaneously. We present Segment Any Gaussians Online (SAGOnline), a lightweight and zero-shot framework for real-time 3D segmentation in Gaussian scenes that addresses these limitations through two key innovations: (1) a decoupled strategy that integrates video foundation models (e.g., SAM2) for view-consistent 2D mask propagation across synthesized views; and (2) a GPU-accelerated 3D mask generation and Gaussian-level instance labeling algorithm that assigns unique identifiers to 3D primitives, enabling lossless multi-object tracking and segmentation across views. SAGOnline achieves state-of-the-art performance on NVOS (92.7% mIoU) and Spin-NeRF (95.2% mIoU) benchmarks, outperforming Feature3DGS, OmniSeg3D-gs, and SA3D by 15--1500 times in inference speed (27 ms/frame). Qualitative results demonstrate robust multi-object segmentation and tracking in complex scenes. Our contributions include: (i) a lightweight and zero-shot framework for 3D segmentation in Gaussian scenes, (ii) explicit labeling of Gaussian primitives enabling simultaneous segmentation and tracking, and (iii) the effective adaptation of 2D video foundation models to the 3D domain. This work allows real-time rendering and 3D scene understanding, paving the way for practical AR/VR and robotic applications.
- Abstract(参考訳): 3D Gaussian Splatting (3DGS)は明示的な3Dシーン表現の強力なパラダイムとして登場したが、効率的で一貫した3Dセグメンテーションを実現することは依然として困難である。
現在の手法では, 計算コストの禁止, 空間的推論の制限, 複数物体の同時追跡が困難となっている。
ビデオ基盤モデル(例えばSAM2)を統合して、合成されたビューを横断する2Dマスクの伝搬を可能にする分離戦略と、GPUによるアクセラレーションされた3Dマスクの生成とガウスレベルのインスタンスラベリングアルゴリズムにより、3Dプリミティブにユニークな識別子を割り当て、ビュー間のマルチオブジェクト追跡とセグメンテーションを可能にする。
SAGOnline は NVOS (92.7% mIoU) と Spin-NeRF (95.2% mIoU) のベンチマークで最先端のパフォーマンスを達成し、Feature3DGS, OmniSeg3D-gs, SA3D を15~1500回の推論速度 (27 ms/frame) で上回った。
質的な結果は、複雑な場面で頑健な多目的セグメンテーションと追跡を示す。
コントリビューションには以下のものがある。
(i)ガウスシーンにおける3次元セグメンテーションのための軽量ゼロショットフレームワーク。
二 同時セグメンテーション及び追跡を可能にするガウス原始体の明示的なラベル付け及び
3) 2次元映像基礎モデルの3次元領域への効果的適応。
この作業により、リアルタイムのレンダリングと3Dシーンの理解が可能になり、実用的なAR/VRおよびロボットアプリケーションへの道を開くことができる。
関連論文リスト
- Trace3D: Consistent Segmentation Lifting via Gaussian Instance Tracing [27.24794829116753]
ガウススプラッティングにおける2次元視覚分割を3次元に引き上げることの課題に対処する。
既存の方法は、視界を横断する不整合な2Dマスクに悩まされ、うるさいセグメンテーション境界を生成する。
本稿では,標準ガウス表現を入力ビュー全体にわたってインスタンス重み行列で拡張するガウスインスタンス追跡(GIT)を紹介する。
論文 参考訳(メタデータ) (2025-08-05T08:54:17Z) - Semantic Gaussians: Open-Vocabulary Scene Understanding with 3D Gaussian Splatting [27.974762304763694]
セマンティック・ガウシアン(Semantic Gaussians)は,3次元ガウシアン・スプレイティングをベースとした,新しいオープン語彙シーン理解手法である。
既存の手法とは異なり、様々な2次元意味的特徴を3次元ガウスの新たな意味的構成要素にマッピングする多目的投影手法を設計する。
我々は,高速な推論のために,生の3Dガウスから意味成分を直接予測する3Dセマンティックネットワークを構築した。
論文 参考訳(メタデータ) (2024-03-22T21:28:19Z) - SAGD: Boundary-Enhanced Segment Anything in 3D Gaussian via Gaussian Decomposition [66.56357905500512]
3Dガウススプラッティングは、新しいビュー合成のための代替の3D表現として登場した。
SAGDは3D-GSのための概念的にシンプルで効果的な境界拡張パイプラインである。
提案手法は粗い境界問題なく高品質な3Dセグメンテーションを実現し,他のシーン編集作業にも容易に適用できる。
論文 参考訳(メタデータ) (2024-01-31T14:19:03Z) - Segment Any 3D Gaussians [85.93694310363325]
本稿では, 3次元ガウススプレイティング(3D-GS)に基づく高効率3Dプロンプト可能なセグメンテーション法であるSAGAについて述べる。
入力として2D視覚的プロンプトが与えられたとき、SAGAは対応する3Dターゲットを4ミリ秒以内に3Dガウスで表現できる。
我々は,SAGAが最先端の手法に匹敵する品質で,リアルタイムな多粒度セグメンテーションを実現することを示す。
論文 参考訳(メタデータ) (2023-12-01T17:15:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。