論文の概要: SegPoint: Segment Any Point Cloud via Large Language Model
- arxiv url: http://arxiv.org/abs/2407.13761v1
- Date: Thu, 18 Jul 2024 17:58:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 14:12:02.265446
- Title: SegPoint: Segment Any Point Cloud via Large Language Model
- Title(参考訳): SegPoint: 大規模言語モデルによる任意のポイントクラウドのセグメンテーション
- Authors: Shuting He, Henghui Ding, Xudong Jiang, Bihan Wen,
- Abstract要約: 我々は,多種多様なタスクにまたがるポイントワイドセグメンテーションマスクを生成するSegPointと呼ばれるモデルを提案する。
SegPointは、単一のフレームワーク内でさまざまなセグメンテーションタスクに対処する最初のモデルである。
- 参考スコア(独自算出の注目度): 62.69797122055389
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite significant progress in 3D point cloud segmentation, existing methods primarily address specific tasks and depend on explicit instructions to identify targets, lacking the capability to infer and understand implicit user intentions in a unified framework. In this work, we propose a model, called SegPoint, that leverages the reasoning capabilities of a multi-modal Large Language Model (LLM) to produce point-wise segmentation masks across a diverse range of tasks: 1) 3D instruction segmentation, 2) 3D referring segmentation, 3) 3D semantic segmentation, and 4) 3D open-vocabulary semantic segmentation. To advance 3D instruction research, we introduce a new benchmark, Instruct3D, designed to evaluate segmentation performance from complex and implicit instructional texts, featuring 2,565 point cloud-instruction pairs. Our experimental results demonstrate that SegPoint achieves competitive performance on established benchmarks such as ScanRefer for referring segmentation and ScanNet for semantic segmentation, while delivering outstanding outcomes on the Instruct3D dataset. To our knowledge, SegPoint is the first model to address these varied segmentation tasks within a single framework, achieving satisfactory performance.
- Abstract(参考訳): 3Dポイントクラウドセグメンテーションの大幅な進歩にもかかわらず、既存のメソッドは主に特定のタスクに対処し、ターゲットを特定するための明示的な命令に依存している。
本研究では,多モーダル大規模言語モデル(LLM)の推論機能を利用して,多様なタスクにまたがるポイントワイドセグメンテーションマスクを生成するSegPointというモデルを提案する。
1)3次元命令セグメンテーション
2)3D参照セグメンテーション
3)3次元セマンティックセグメンテーション,及び
4)3次元オープン語彙セマンティックセマンティックセグメンテーション。
本研究では,2,565点のクラウド・インストラクションペアを特徴とする,複雑な命令文と暗黙的な命令文からセグメンテーション性能を評価するための新しいベンチマークであるInstruct3Dを提案する。
ScanReferはセグメンテーションに,ScanNetはセグメンテーションに,ScanNetはセグメンテーションのセグメンテーションに,ScanPointはInstruct3Dデータセットに優れた結果をもたらす。
私たちの知る限り、SegPointは、これらの様々なセグメンテーションタスクを単一のフレームワークで対処する最初のモデルであり、良好なパフォーマンスを実現しています。
関連論文リスト
- LESS: Label-Efficient and Single-Stage Referring 3D Segmentation [55.06002976797879]
参照3Dは、クエリの文で記述された3Dポイントクラウドから、指定されたオブジェクトのすべてのポイントをセグメントする視覚言語タスクである。
本稿では,LESSと呼ばれるレファレンス3次元パイプラインを提案する。
ScanReferデータセット上での最先端のパフォーマンスは、バイナリラベルのみを使用して、以前の3.7% mIoUの手法を上回ります。
論文 参考訳(メタデータ) (2024-10-17T07:47:41Z) - 3D-GRES: Generalized 3D Referring Expression Segmentation [77.10044505645064]
3D参照式(3D-RES)は、自然言語の記述に基づいて、特定のインスタンスを3D空間内にセグメント化することを目的としている。
一般化された3D参照式(3D-GRES)は、自然言語命令に基づいて任意の数のインスタンスをセグメントする機能を拡張する。
論文 参考訳(メタデータ) (2024-07-30T08:59:05Z) - RefMask3D: Language-Guided Transformer for 3D Referring Segmentation [32.11635464720755]
RefMask3Dは、総合的なマルチモーダル機能インタラクションと理解を探求することを目的としている。
RefMask3Dは、挑戦的なScanReferデータセットにおいて、3.16% mIoUの大きなマージンで、従来の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-07-25T17:58:03Z) - PARIS3D: Reasoning-based 3D Part Segmentation Using Large Multimodal Model [19.333506797686695]
本稿では,3次元オブジェクトに対する推論部分分割と呼ばれる新しいセグメンテーションタスクを提案する。
我々は3Dオブジェクトの特定の部分に関する複雑で暗黙的なテキストクエリに基づいてセグメンテーションマスクを出力する。
本稿では,暗黙のテキストクエリに基づいて3次元オブジェクトの一部を分割し,自然言語による説明を生成するモデルを提案する。
論文 参考訳(メタデータ) (2024-04-04T23:38:45Z) - Segment Any 3D Object with Language [58.471327490684295]
本稿では,Segment any 3D Object with LanguagE (SOLE)を紹介した。
具体的には、バックボーンとデコーダの両方にマルチモーダル意味を組み込むマルチモーダル融合ネットワークを提案する。
我々のSOLEは、ScanNetv2、ScanNet200、Replicaベンチマークにおいて、従来の方法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2024-04-02T17:59:10Z) - SAI3D: Segment Any Instance in 3D Scenes [68.57002591841034]
新規なゼロショット3Dインスタンスセグメンテーション手法であるSAI3Dを紹介する。
我々の手法は3Dシーンを幾何学的プリミティブに分割し、段階的に3Dインスタンスセグメンテーションにマージする。
ScanNet、Matterport3D、さらに難しいScanNet++データセットに関する実証的な評価は、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2023-12-17T09:05:47Z) - Instance-aware 3D Semantic Segmentation powered by Shape Generators and
Classifiers [28.817905887080293]
本稿では,3次元セマンティックセグメンテーションのための新しいインスタンス認識手法を提案する。
本手法は,学習した特徴表現の一貫性を促進するために,インスタンスレベルでの幾何処理タスクを組み合わせる。
論文 参考訳(メタデータ) (2023-11-21T02:14:16Z) - Improving Point Cloud Semantic Segmentation by Learning 3D Object
Detection [102.62963605429508]
ポイントクラウドセマンティックセグメンテーションは、自動運転において重要な役割を果たす。
現在の3Dセマンティックセグメンテーションネットワークは、よく表現されたクラスに対して優れた性能を発揮する畳み込みアーキテクチャに焦点を当てている。
Aware 3D Semantic Detection (DASS) フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-22T14:17:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。