論文の概要: SGS-3D: High-Fidelity 3D Instance Segmentation via Reliable Semantic Mask Splitting and Growing
- arxiv url: http://arxiv.org/abs/2509.05144v1
- Date: Fri, 05 Sep 2025 14:37:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.616887
- Title: SGS-3D: High-Fidelity 3D Instance Segmentation via Reliable Semantic Mask Splitting and Growing
- Title(参考訳): SGS-3D:信頼性のあるセマンティックマスク分割と成長による高忠実度3Dインスタンスセグメンテーション
- Authors: Chaolei Wang, Yang Luo, Jing Du, Siyu Chen, Yiping Chen, Ting Han,
- Abstract要約: 高忠実度3Dインスタンスセグメンテーション(SGS-3D)のための分割・成長型セマンティックマスクを提案する。
本稿では,3次元幾何学的プリミティブの共起を利用したマスクフィルタリング手法を提案する。
幾何学的洗練のために,空間的連続性と高次特徴を両立させて細粒度オブジェクトインスタンスを構築する。
- 参考スコア(独自算出の注目度): 20.383892902000976
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate 3D instance segmentation is crucial for high-quality scene understanding in the 3D vision domain. However, 3D instance segmentation based on 2D-to-3D lifting approaches struggle to produce precise instance-level segmentation, due to accumulated errors introduced during the lifting process from ambiguous semantic guidance and insufficient depth constraints. To tackle these challenges, we propose splitting and growing reliable semantic mask for high-fidelity 3D instance segmentation (SGS-3D), a novel "split-then-grow" framework that first purifies and splits ambiguous lifted masks using geometric primitives, and then grows them into complete instances within the scene. Unlike existing approaches that directly rely on raw lifted masks and sacrifice segmentation accuracy, SGS-3D serves as a training-free refinement method that jointly fuses semantic and geometric information, enabling effective cooperation between the two levels of representation. Specifically, for semantic guidance, we introduce a mask filtering strategy that leverages the co-occurrence of 3D geometry primitives to identify and remove ambiguous masks, thereby ensuring more reliable semantic consistency with the 3D object instances. For the geometric refinement, we construct fine-grained object instances by exploiting both spatial continuity and high-level features, particularly in the case of semantic ambiguity between distinct objects. Experimental results on ScanNet200, ScanNet++, and KITTI-360 demonstrate that SGS-3D substantially improves segmentation accuracy and robustness against inaccurate masks from pre-trained models, yielding high-fidelity object instances while maintaining strong generalization across diverse indoor and outdoor environments. Code is available in the supplementary materials.
- Abstract(参考訳): 正確な3Dインスタンスセグメンテーションは、3Dビジョン領域における高品質なシーン理解に不可欠である。
しかし、2D-to-3Dリフト法に基づく3次元インスタンスセグメンテーションは、不明瞭なセグメンテーションガイダンスと不十分な深さ制約から、リフトプロセス中に発生した累積誤差により、正確にインスタンスレベルのセグメンテーションを生成するのに苦労する。
これらの課題に対処するために、我々は、まず幾何学的プリミティブを用いてあいまいな持ち上げマスクを精製し分割し、その後、シーン内の完全なインスタンスに成長する新しい「スプリット・テン・グロー」フレームワークである、高忠実度3Dインスタンスセグメンテーション(SGS-3D)のための分割および信頼性の高いセマンティックマスク(SGS-3D)を提案する。
SGS-3Dは、生の持ち上げマスクと犠牲セグメンテーションの精度に直接依存する既存のアプローチとは異なり、意味情報と幾何学情報を共同で融合する訓練自由改善法として機能し、2つのレベルの表現の効果的な協調を可能にする。
具体的には,3次元形状プリミティブの共起を利用して曖昧なマスクを識別・除去し,より信頼性の高い3次元オブジェクトインスタンス間のセマンティック一貫性を確保するマスクフィルタリング手法を提案する。
幾何学的洗練のために,空間的連続性と高次特徴を両立させて,細粒度オブジェクトのインスタンスを構築する。
ScanNet200、ScanNet++、KITTI-360の実験結果から、SGS-3Dは、事前訓練されたモデルからの不正確なマスクに対するセグメンテーション精度とロバスト性を著しく改善し、多様な屋内および屋外環境における強力な一般化を維持しつつ、高忠実度オブジェクトインスタンスを生成することを示した。
コードは補足資料で入手できる。
関連論文リスト
- SeqAffordSplat: Scene-level Sequential Affordance Reasoning on 3D Gaussian Splatting [85.87902260102652]
本稿では, 連続3次元ガウシアン・アフラマンス推論の課題について紹介する。
次に,SeqSplatNetを提案する。SqSplatNetは,命令を直接3Dアベイランスマスクのシーケンスにマッピングするエンドツーエンドフレームワークである。
本手法は,1段階のインタラクションから,シーンレベルでの複雑なシーケンシャルなタスクへの可利用性推論を効果的に向上させる。
論文 参考訳(メタデータ) (2025-07-31T17:56:55Z) - MLLM-For3D: Adapting Multimodal Large Language Model for 3D Reasoning Segmentation [87.30919771444117]
推論セグメンテーション(Reasoning segmentation)は、人間の意図と空間的推論に基づく複雑なシーンにおける対象オブジェクトのセグメンテーションを目的としている。
最近のマルチモーダル大言語モデル(MLLM)は印象的な2次元画像推論セグメンテーションを実証している。
本稿では,2次元MLLMから3次元シーン理解へ知識を伝達するフレームワークであるMLLM-For3Dを紹介する。
論文 参考訳(メタデータ) (2025-03-23T16:40:20Z) - Bootstraping Clustering of Gaussians for View-consistent 3D Scene Understanding [59.51535163599723]
FreeGSは、教師なしセマンティック組み込み3DGSフレームワークで、2Dラベルを必要とせずに、ビュー一貫性のある3Dシーン理解を実現する。
FreeGSは複雑なデータ前処理のワークロードを避けながら、最先端のメソッドと互換性がある。
論文 参考訳(メタデータ) (2024-11-29T08:52:32Z) - SAI3D: Segment Any Instance in 3D Scenes [68.57002591841034]
新規なゼロショット3Dインスタンスセグメンテーション手法であるSAI3Dを紹介する。
我々の手法は3Dシーンを幾何学的プリミティブに分割し、段階的に3Dインスタンスセグメンテーションにマージする。
ScanNet、Matterport3D、さらに難しいScanNet++データセットに関する実証的な評価は、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2023-12-17T09:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。