論文の概要: TrackRef3D: Multi-View Consistent Track-then-Label for Open-World Referring Segmentation in 3D Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2605.26576v1
- Date: Tue, 26 May 2026 05:49:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.689259
- Title: TrackRef3D: Multi-View Consistent Track-then-Label for Open-World Referring Segmentation in 3D Gaussian Splatting
- Title(参考訳): TrackRef3D:3次元ガウススプレイティングにおけるオープンワールド参照セグメンテーションのためのマルチビュー一貫性トラックthen-Label
- Authors: Yuyang Tan, Renhe Zhang, Hang Zhang, Ao Li, Xin Tan,
- Abstract要約: 本稿では,3次元ガウススプラッティング(3DGS)におけるオープンワールド参照セグメンテーションを実現する完全自動パイプラインであるTrackRef3Dを提案する。
本稿では,同義語クラスタリングとトラジェクティブ・アウェア投票を通じて,クロスビュー予測を集約し,標準的セマンティック・アイデンティティを確立するトラジェクティブ・アウェア・セマンティック・コンセンサス・モジュール(TSCM)を提案する。
- 参考スコア(独自算出の注目度): 10.787720313658093
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Referring 3D Gaussian Splatting (R3DGS), which utilizes natural language for 3D object segmentation, has emerged as a crucial capability for embodied AI. However, existing methods typically rely on expensive per-scene manual annotation and per-view pseudo mask generation, which suffer from multi-view inconsistency and poor generalization to varying query specificities. To address this, we present TrackRef3D, a fully automatic pipeline that achieves open-world referring segmentation in 3D Gaussian Splatting (3DGS) without manual annotation by introducing a multi-view consistent track-then-label paradigm that fundamentally decouples object discovery from semantic grounding. Specifically, we propose a Trajectory-Aware Semantic Consensus Module (TSCM) which aggregates cross-view predictions via synonymous clustering and trajectory-aware voting to establish a canonical semantic identity, thereby ensuring multi-view consistency. Furthermore, we employ a visibility-aware description generation strategy to mitigate ambiguity and propose a Hybrid Training Strategy (HTS) that jointly optimizes coarse category semantics and fine-grained referential cues to ensure robustness under varying query specificities using a multi-positive contrastive objective. Extensive experiments on benchmarks demonstrate that TrackRef3D achieves state-of-the-art performance.
- Abstract(参考訳): 3Dオブジェクトセグメンテーションに自然言語を利用するR3DGS(Refering 3D Gaussian Splatting)は、AIを具現化する重要な能力として登場した。
しかし、既存の手法は通常、多視点の不整合と様々なクエリ特異性への一般化の不足に悩まされる、高価なシーン毎の手動アノテーションとビュー毎の擬似マスク生成に依存している。
そこで本研究では,3次元ガウススティング(3DGS)におけるオープンワールド参照セグメンテーションを実現する完全自動パイプラインであるTrackRef3Dを提案する。
具体的には,同義語クラスタリングとトラジェクティブ・セマンティック・コンセンサス・モジュール(TSCM, Trajectory-Aware Semantic Consensus Module)を提案する。
さらに、あいまいさを軽減するために、可視性を考慮した記述生成戦略を採用し、粗いカテゴリのセマンティクスと細粒度参照キューを協調的に最適化し、多意なコントラスト目的を用いて、クエリ特異性の変化の下で堅牢性を確保するハイブリッドトレーニング戦略(HTS)を提案する。
ベンチマークに関する大規模な実験は、TrackRef3Dが最先端のパフォーマンスを実現していることを示している。
関連論文リスト
- NG-GS: NeRF-Guided 3D Gaussian Splatting Segmentation [65.34304674634713]
3DGSにおける高品質なオブジェクトセグメンテーションのためのフレームワークであるNG-GSを導入する。
本手法は, 境界mIoUにおいて, フォトリアリスティックな技術性能を実現し, 有意な利得が得られることを示す。
論文 参考訳(メタデータ) (2026-04-16T07:14:07Z) - FAST3DIS: Feed-forward Anchored Scene Transformer for 3D Instance Segmentation [15.271467111162714]
FAST3DISは、ホット後のクラスタリングを効果的にバイパスするエンドツーエンドのアプローチである。
本稿では,基礎的な奥行きバックボーン上に構築された3Dアンコール型クエリベースのTransformerアーキテクチャを提案する。
複雑な屋内3次元データセットを用いた実験により,本手法が競合セグメンテーション精度を実現することを示す。
論文 参考訳(メタデータ) (2026-03-27T00:45:31Z) - SegSplat: Feed-forward Gaussian Splatting and Open-Set Semantic Segmentation [114.57192386025373]
SegSplatは、高速でフィードフォワードな3D再構成とリッチでオープンなセマンティック理解のギャップを埋めるために設計された、新しいフレームワークである。
この研究は、意味的に認識された3D環境の実践的でオンザフライな生成に向けた重要なステップである。
論文 参考訳(メタデータ) (2025-11-23T10:26:38Z) - Unlocking 3D Affordance Segmentation with 2D Semantic Knowledge [45.19482892758984]
Affordance segmentationは、3Dオブジェクトを機能的に異なる部分にパースすることを目的としている。
我々は,3次元エンコーダを昇降した2次元意味論と整合させ,再現,親和性,多様性を共同で最適化し,意味的に整理された表現を得るための事前学習戦略であるCross-Modal Affinity Transfer (CMAT)を導入する。
さらに,マルチモーダルプロンプトとCMAT対応機能を統合し,高精度かつ迅速なセグメンテーションマップを生成するCAST (Cross-modal Affordance Transformer) を設計する。
論文 参考訳(メタデータ) (2025-10-09T15:01:26Z) - econSG: Efficient and Multi-view Consistent Open-Vocabulary 3D Semantic Gaussians [56.85804719947]
3DGSを用いたオープン語彙セマンティックセマンティックセグメンテーションのためのeconSGを提案する。
筆者らのeconSGは,既存手法と比較して,4つのベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2025-04-08T13:12:31Z) - Bootstraping Clustering of Gaussians for View-consistent 3D Scene Understanding [59.51535163599723]
FreeGSは、教師なしセマンティック組み込み3DGSフレームワークで、2Dラベルを必要とせずに、ビュー一貫性のある3Dシーン理解を実現する。
FreeGSは複雑なデータ前処理のワークロードを避けながら、最先端のメソッドと互換性がある。
論文 参考訳(メタデータ) (2024-11-29T08:52:32Z) - InstanceGaussian: Appearance-Semantic Joint Gaussian Representation for 3D Instance-Level Perception [17.530797215534456]
3Dシーンの理解は、自動運転、ロボティクス、拡張現実の応用において重要な研究領域となっている。
本稿では,インスタンスを適応的に集約しながら外観や意味的特徴を共同学習する InstanceGaussian を提案する。
提案手法は,カテゴリーに依存しないオープンボキャブラリ3次元点分割における最先端性能を実現する。
論文 参考訳(メタデータ) (2024-11-28T16:08:36Z) - SAI3D: Segment Any Instance in 3D Scenes [68.57002591841034]
新規なゼロショット3Dインスタンスセグメンテーション手法であるSAI3Dを紹介する。
我々の手法は3Dシーンを幾何学的プリミティブに分割し、段階的に3Dインスタンスセグメンテーションにマージする。
ScanNet、Matterport3D、さらに難しいScanNet++データセットに関する実証的な評価は、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2023-12-17T09:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。