論文の概要: OpenTrack3D: Towards Accurate and Generalizable Open-Vocabulary 3D Instance Segmentation
- arxiv url: http://arxiv.org/abs/2512.03532v1
- Date: Wed, 03 Dec 2025 07:51:03 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:01:08.281563
- Title: OpenTrack3D: Towards Accurate and Generalizable Open-Vocabulary 3D Instance Segmentation
- Title(参考訳): OpenTrack3D: 正確で一般化可能なOpen-Vocabulary 3Dインスタンスセグメンテーションを目指して
- Authors: Zhishan Zhou, Siyuan Wei, Zengran Wang, Chunjie Wang, Xiaosheng Yan, Xiao Liu,
- Abstract要約: オープンな3Dインスタンスセグメンテーションのための汎用的で正確なフレームワークであるOpenTrack3Dを紹介する。
事前に生成された提案に依存するメソッドとは異なり、OpenTrack3Dは、クロスビュー一貫性のあるオブジェクト提案を構築するために、新しいビジュアル空間トラッカーを使用している。
パイプラインは完全にメッシュフリーですが、シーンメッシュが利用可能になった時にパフォーマンスをさらに向上する、オプションのスーパーポイントリファインメントモジュールも提供しています。
- 参考スコア(独自算出の注目度): 5.073373064582996
- License:
- Abstract: Generalizing open-vocabulary 3D instance segmentation (OV-3DIS) to diverse, unstructured, and mesh-free environments is crucial for robotics and AR/VR, yet remains a significant challenge. We attribute this to two key limitations of existing methods: (1) proposal generation relies on dataset-specific proposal networks or mesh-based superpoints, rendering them inapplicable in mesh-free scenarios and limiting generalization to novel scenes; and (2) the weak textual reasoning of CLIP-based classifiers, which struggle to recognize compositional and functional user queries. To address these issues, we introduce OpenTrack3D, a generalizable and accurate framework. Unlike methods that rely on pre-generated proposals, OpenTrack3D employs a novel visual-spatial tracker to construct cross-view consistent object proposals online. Given an RGB-D stream, our pipeline first leverages a 2D open-vocabulary segmenter to generate masks, which are lifted to 3D point clouds using depth. Mask-guided instance features are then extracted using DINO feature maps, and our tracker fuses visual and spatial cues to maintain instance consistency. The core pipeline is entirely mesh-free, yet we also provide an optional superpoints refinement module to further enhance performance when scene mesh is available. Finally, we replace CLIP with a multi-modal large language model (MLLM), significantly enhancing compositional reasoning for complex user queries. Extensive experiments on diverse benchmarks, including ScanNet200, Replica, ScanNet++, and SceneFun3D, demonstrate state-of-the-art performance and strong generalization capabilities.
- Abstract(参考訳): オープンボキャブラリ3Dインスタンスセグメンテーション(OV-3DIS)を、多様な、構造化されていない、メッシュのない環境に一般化することは、ロボティクスやAR/VRにとって不可欠だが、それでも重要な課題である。
1) 提案生成は,データセット固有の提案ネットワークやメッシュベースのスーパーポイントに依存し,メッシュのないシナリオで適用できないようにし,新規シーンへの一般化を制限し,(2) 合成および機能的ユーザクエリの認識に苦慮するCLIPベースの分類器の弱いテキスト推論を行う。
これらの問題に対処するために、一般化可能で正確なフレームワークであるOpenTrack3Dを紹介します。
事前に生成された提案に依存するメソッドとは異なり、OpenTrack3Dは、新しいビジュアル空間トラッカーを使用して、相互に一貫したオブジェクトの提案をオンラインで構築する。
RGB-Dストリームが与えられた場合、パイプラインはまず2Dのオープン語彙セグメンタを利用してマスクを生成します。
マスク誘導型インスタンス機能はDINO特徴マップを用いて抽出され、トラッカーは視覚的および空間的手がかりを融合してインスタンスの整合性を維持する。
コアパイプラインは完全にメッシュフリーですが、シーンメッシュが利用可能になった時にパフォーマンスをさらに向上する、オプションのスーパーポイントリファインメントモジュールも提供しています。
最後に、CLIPをMLLM(Multi-modal large language model)に置き換え、複雑なユーザクエリの合成推論を大幅に強化する。
ScanNet200、Replica、ScanNet++、SceneFun3Dなど、さまざまなベンチマークに関する大規模な実験は、最先端のパフォーマンスと強力な一般化機能を示している。
関連論文リスト
- SAB3R: Semantic-Augmented Backbone in 3D Reconstruction [19.236494823612507]
オープン語彙セグメンテーションと3次元再構成の目的を統一する新しいタスクであるMap and Locateを導入する。
具体的には、MapとLocateは、未提示のビデオからポイントクラウドを生成し、オープン語彙クエリに基づいてオブジェクトインスタンスをセグメント化する。
このタスクは、現実世界のAIアプリケーションへの重要なステップとして機能し、再構築、認識、再編成を橋渡しする実践的なタスクを導入します。
論文 参考訳(メタデータ) (2025-06-02T18:00:04Z) - Open3DIS: Open-Vocabulary 3D Instance Segmentation with 2D Mask Guidance [49.14140194332482]
Open3DISは3Dシーン内でのOpen-Vocabulary Instanceの問題に対処するために設計された新しいソリューションである。
3D環境内のオブジェクトは、さまざまな形状、スケール、色を示し、正確なインスタンスレベルの識別が困難なタスクとなる。
論文 参考訳(メタデータ) (2023-12-17T10:07:03Z) - OpenMask3D: Open-Vocabulary 3D Instance Segmentation [84.58747201179654]
OpenMask3Dはオープンな3Dインスタンスセグメンテーションのためのゼロショットアプローチである。
私たちのモデルは、CLIPベースの画像埋め込みのマルチビュー融合により、マスクごとの特徴を集約する。
論文 参考訳(メタデータ) (2023-06-23T17:36:44Z) - Flattening-Net: Deep Regular 2D Representation for 3D Point Cloud
Analysis [66.49788145564004]
我々は、任意の幾何学と位相の不規則な3次元点雲を表現するために、Flattning-Netと呼ばれる教師なしのディープニューラルネットワークを提案する。
我々の手法は、現在の最先端の競合相手に対して好意的に機能する。
論文 参考訳(メタデータ) (2022-12-17T15:05:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。