論文の概要: COS3D: Collaborative Open-Vocabulary 3D Segmentation
- arxiv url: http://arxiv.org/abs/2510.20238v1
- Date: Thu, 23 Oct 2025 05:45:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:17.438567
- Title: COS3D: Collaborative Open-Vocabulary 3D Segmentation
- Title(参考訳): COS3D:オープンボキャブラリの3Dセグメンテーション
- Authors: Runsong Zhu, Ka-Hei Hui, Zhengzhe Liu, Qianyi Wu, Weiliang Tang, Shi Qiu, Pheng-Ann Heng, Chi-Wing Fu,
- Abstract要約: COS3Dは、新しい協調的なプロンプトセグメンテーションフレームワークである。
まず、インスタンスフィールドと言語フィールドからなる協調フィールドという新しい概念を紹介する。
推論において,2つの分野の異なる特徴をブリッジするために,適応型言語からインスタンスへの即時改善を設計する。
- 参考スコア(独自算出の注目度): 86.41533122575981
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-vocabulary 3D segmentation is a fundamental yet challenging task, requiring a mutual understanding of both segmentation and language. However, existing Gaussian-splatting-based methods rely either on a single 3D language field, leading to inferior segmentation, or on pre-computed class-agnostic segmentations, suffering from error accumulation. To address these limitations, we present COS3D, a new collaborative prompt-segmentation framework that contributes to effectively integrating complementary language and segmentation cues throughout its entire pipeline. We first introduce the new concept of collaborative field, comprising an instance field and a language field, as the cornerstone for collaboration. During training, to effectively construct the collaborative field, our key idea is to capture the intrinsic relationship between the instance field and language field, through a novel instance-to-language feature mapping and designing an efficient two-stage training strategy. During inference, to bridge distinct characteristics of the two fields, we further design an adaptive language-to-instance prompt refinement, promoting high-quality prompt-segmentation inference. Extensive experiments not only demonstrate COS3D's leading performance over existing methods on two widely-used benchmarks but also show its high potential to various applications,~\ie, novel image-based 3D segmentation, hierarchical segmentation, and robotics. The code is publicly available at \href{https://github.com/Runsong123/COS3D}{https://github.com/Runsong123/COS3D}.
- Abstract(参考訳): オープン語彙の3Dセグメンテーションは基本的な課題であり、セグメンテーションと言語の両方を相互に理解する必要がある。
しかし、既存のガウススプティングに基づく手法は、単一の3D言語フィールドに依存しており、下位のセグメンテーションにつながるか、あるいはエラーの蓄積に苦しむ計算済みのクラス非依存セグメンテーションに依存している。
これらの制限に対処するため、パイプライン全体を通して補完的な言語とセグメンテーションのキューを効果的に統合するのに寄与する、新しい協調的なプロンプトセグメンテーションフレームワークであるCOS3Dを提案する。
まず,事例フィールドと言語フィールドからなる協調フィールドという概念を,協調の基盤として紹介する。
学習中、協調分野を効果的に構築するために、我々は、インスタンスフィールドと言語フィールドの本質的な関係を、新しいインスタンスから言語への特徴マッピングを通じて捉え、効率的な2段階トレーニング戦略を設計する。
推論中,2つの分野の異なる特徴をブリッジするために,適応型言語とインスタンス間の即時改善を設計し,高品質なプロンプトセグメンテーション推論を促進する。
大規模な実験では、COS3Dは2つの広く使用されているベンチマークで既存の手法よりも優れた性能を示しているだけでなく、新しい画像ベースの3Dセグメンテーション、階層セグメンテーション、ロボット工学など、様々な応用の可能性も示している。
コードは \href{https://github.com/Runsong123/COS3D}{https://github.com/Runsong123/COS3D} で公開されている。
関連論文リスト
- PGOV3D: Open-Vocabulary 3D Semantic Segmentation with Partial-to-Global Curriculum [20.206273757144547]
PGOV3Dはオープンな3Dセマンティックセマンティックセグメンテーションを改善するための部分言語カリキュラムを導入した新しいフレームワークである。
我々は、密接な意味情報を提供する部分的なシーンでモデルを事前訓練するが、比較的単純な幾何学である。
第2段階では、よりスペーサーで構造的に複雑である、完全なシーンレベルの点雲上でモデルを微調整する。
論文 参考訳(メタデータ) (2025-06-30T08:13:07Z) - SJTU:Spatial judgments in multimodal models towards unified segmentation through coordinate detection [4.930667479611019]
本稿では,マルチモーダルモデルにおける空間的判断 -コーディネート検出による統一を目指して-
マルチモーダル空間における空間推論を通した視覚言語モデルとのセグメンテーション手法の統合手法を提案する。
ベンチマークデータセット間で優れたパフォーマンスを示し、COCO 2017では0.5958、Pascal VOCでは0.6758、IoUスコアを達成しました。
論文 参考訳(メタデータ) (2024-12-03T16:53:58Z) - Search3D: Hierarchical Open-Vocabulary 3D Segmentation [78.47704793095669]
本稿では,階層的なオープンな3Dシーン表現を構築するためのアプローチであるSearch3Dを紹介する。
従来の方法とは異なり、Search3Dはより柔軟なオープンな3D検索パラダイムにシフトする。
体系的な評価のために,MultiScanに基づくシーンスケールのオープンボキャブラリ3D部分セグメンテーションベンチマークを提案する。
論文 参考訳(メタデータ) (2024-09-27T03:44:07Z) - SegPoint: Segment Any Point Cloud via Large Language Model [62.69797122055389]
我々は,多種多様なタスクにまたがるポイントワイドセグメンテーションマスクを生成するSegPointと呼ばれるモデルを提案する。
SegPointは、単一のフレームワーク内でさまざまなセグメンテーションタスクに対処する最初のモデルである。
論文 参考訳(メタデータ) (2024-07-18T17:58:03Z) - Generalized Robot 3D Vision-Language Model with Fast Rendering and Pre-Training Vision-Language Alignment [55.11291053011696]
本研究は,ラベル付きシーンが極めて限定された場合の3次元シーン理解のためのフレームワークを提案する。
事前学習された視覚言語モデルから新しいカテゴリーの知識を抽出するために,階層的特徴整合型事前学習と知識蒸留戦略を提案する。
限定的な再構築の場合、提案手法はWS3D++と呼ばれ、大規模なScanNetベンチマークで1位にランクインした。
論文 参考訳(メタデータ) (2023-12-01T15:47:04Z) - Panoptic Vision-Language Feature Fields [27.209602602110916]
オープンボキャブラリパノプティックセグメンテーションのための第1のアルゴリズムを3次元シーンで提案する。
本アルゴリズムは,事前学習した2次元モデルから視覚言語の特徴を抽出することにより,シーンの意味的特徴場を学習する。
提案手法は,HyperSim, ScanNet, Replicaデータセット上の最先端のクローズドセット3Dシステムと同様のパノプティカルセグメンテーション性能を実現する。
論文 参考訳(メタデータ) (2023-09-11T13:41:27Z) - A Simple Framework for Open-Vocabulary Segmentation and Detection [85.21641508535679]
我々は,異なるセグメンテーションと検出データセットから共同で学習する,シンプルなオープン語彙検出フレームワークOpenSeeDを提案する。
まず、事前学習されたテキストエンコーダを導入し、視覚概念を2つのタスクにエンコードし、それらの共通意味空間を学習する。
プレトレーニング後,本モデルでは,セグメンテーションと検出の両方において,競争力あるいは強いゼロショット転送性を示す。
論文 参考訳(メタデータ) (2023-03-14T17:58:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。